GeoGNN reduziert semantischen Drift in Text-Graphen – neue Methode überzeugt

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Graph Neural Networks (GNNs) arbeiten häufig mit Text‑Attributed Graphs (TAGs), indem sie die Texte von Knoten mit vortrainierten Sprachmodellen (PLMs) kodieren und die resultierenden Einbettungen linear über Nachbarschaften aggregieren. Doch die Repräsentationsräume moderner PLMs sind hochgradig nichtlinear und geometrisch strukturiert – die Text‑Embeddings liegen auf gekrümmten semantischen Manifolds statt in flachen euklidischen Räumen. Lineare Aggregation auf solchen Manifolds verfälscht die Geometrie und führt zu semantischem Drift, bei dem die aggregierten Vektoren vom eigentlichen Manifold abweichen und semantische Präzision sowie Ausdruckskraft verlieren.

Um dieses Problem quantitativ zu untersuchen, stellt die Arbeit einen lokalen PCA‑basierten Metrik vor, der den Grad des semantischen Drifts misst. Damit wird erstmals ein systematisches Rahmenwerk geschaffen, um zu analysieren, wie verschiedene Aggregationsmechanismen die Manifold‑Struktur beeinflussen. Aufbauend auf diesen Erkenntnissen wird Geodesic Aggregation eingeführt – ein manifold‑bewusster Ansatz, der Nachbarschaftsinformationen entlang geodätischer Kurven mittels Log‑Exp‑Mappings auf der Einheitskugel aggregiert und so die Integrität des semantischen Manifolds während des Message‑Passings gewährleistet.

Die praktische Umsetzung, GeoGNN, kombiniert sphärische Aufmerksamkeit mit manifold‑interpolierten Aggregationen. Umfangreiche Experimente auf vier Benchmark‑Datensätzen und mit mehreren Text‑Encodern zeigen, dass GeoGNN den semantischen Drift deutlich reduziert und konsequent die Leistung von starken Baselines übertrifft. Diese Ergebnisse unterstreichen die Bedeutung manifold‑bewusster Aggregation für die Verarbeitung von Text‑Attributed Graphen und eröffnen neue Perspektiven für die Weiterentwicklung von GNN‑Modellen.

Ähnliche Artikel