CITE: Benchmark für heterogene Text-Graphen in katalytischen Materialien

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Wissenschaft erhält ein neues Werkzeug: CITE, ein umfangreiches Benchmark‑Set für heterogene Text‑attributed Graphen, das speziell auf katalytische Materialien ausgerichtet ist. Durch die Bereitstellung eines großen, strukturierten Datensatzes soll die Entwicklung und der Vergleich von Repräsentationslernverfahren in diesem Forschungsfeld beschleunigt werden.

CITE umfasst mehr als 438 000 Knoten und 1,2 Millionen Kanten, die über vier verschiedene Relationstypen verteilt sind. Jeder Knoten trägt eigene Textmerkmale, was die Analyse von Text‑Graphen in der Materialforschung ermöglicht. Die Vielfalt der Knoten- und Kantentypen spiegelt die Komplexität realer katalytischer Netzwerke wider.

Die Autoren haben standardisierte Testprotokolle definiert und umfangreiche Benchmarks für die Knotenkategorisierung durchgeführt. Sie vergleichen vier Modellklassen – homogene Graphen, heterogene Graphen, reine LLM‑Ansätze und kombinierte LLM‑Graph‑Modelle – und führen Ablationstudien durch, um die Rolle von Heterogenität und Textdaten zu beleuchten. CITE liefert damit sowohl ein umfassendes Datenset als auch klare Evaluationsrichtlinien für zukünftige Forschungsarbeiten.