Komplexität von Wissensgraphen: Semantische, spektrale und strukturelle Metriken
Eine neue Studie auf arXiv untersucht, wie komplex Wissensgraphen (KGs) für die Vorhersage von Verknüpfungen sind. Der Fokus liegt auf dem sogenannten Cumulative Spectral Gradient (CSG), einer Metrik, die aus der probabilistischen Divergenz zwischen Klassen im Rahmen eines spektralen Clusterings abgeleitet wird. Obwohl CSG als modellunabhängige Komplexitätsmetrik beworben wurde, zeigt die Analyse, dass sie stark von der Parametrierung abhängt und die Anzahl der Klassen nicht zuverlässig widerspiegelt. Darüber hinaus korreliert CSG nur schwach – oder gar nicht – mit den üblichen Leistungsmaßen Mean Reciprocal Rank (MRR) und Hit@1.
Um die Situation zu vertiefen, wurden weitere semantische und strukturelle Metriken entwickelt und getestet. Relation Entropy, Maximum Relation Diversity und Relation Type Cardinality – also die Unschärfe der Beziehungen, die Vielfalt der Relationen an einem Knoten und die Anzahl der Relationstypen – zeigen starke inverse Zusammenhänge mit MRR und Hit@1. Das bedeutet, je höher diese Werte, desto schwieriger ist die Link‑Prediction-Aufgabe. Im Gegensatz dazu korrelieren graph‑verbindungsbezogene Kennzahlen wie Average Degree, Degree Entropy, PageRank und Eigenvector Centrality positiv mit Hit@10, was auf eine bessere Leistung bei weniger strengen Ranglisten hinweist.
Die Ergebnisse legen nahe, dass die bisher als stabil geltende CSG‑Metrik in KG‑Umgebungen nicht die gewünschte Vorhersagekraft besitzt. Stattdessen liefern die neuen strukturellen und semantischen Kennzahlen verlässlichere Indikatoren für die Schwierigkeit von Link‑Prediction‑Modellen. Diese Erkenntnisse können Forschern und Praktikern helfen, geeignete Metriken auszuwählen, um die Leistungsfähigkeit von KG‑Modellen besser zu bewerten und zu vergleichen.