Transformer trennt Sprache & Wissensgraph – neue Joint-Training-Architektur
Eine neue Architektur für Transformer‑Modelle, die sowohl Sätze als auch strukturierte Daten gleichzeitig trainiert, wurde vorgestellt. Das System hält Sprach- und Wissensrepräsentationen strikt getrennt, sodass beide Komponenten klar voneinander abgegrenzt bleiben.
Wissensgraphen und Hypergraphen werden als strukturierte Instanzen mit definierten Rollenslots behandelt. Diese Instanzen werden in ein Schlüssel‑Wert‑Repository kodiert, auf das ein Sprach‑Transformer über Attention zugreifen kann. Durch diese Trennung kann das Modell gezielt auf die relevanten Wissenskomponenten zugreifen, ohne die Sprachrepräsentation zu verfälschen.
Ein zentrales Merkmal ist die „journey‑basierte Rollen‑Transport‑Attention“, die Traversierungen von Kanten, Hyperkanten und Satzstrukturen in einem einheitlichen Mechanismus zusammenführt. Die Architektur nutzt duale Streams, hierarchische Layer‑Gruppen mit lokaler, Nachbarschafts‑ und globaler Misch‑Attention sowie eine separate Repository‑Retrieval‑Schicht. Mehrere Lernziele – Masked Language Modeling, Link Prediction und Rollen‑Konsistenz‑Denoising – werden gleichzeitig optimiert.
Das Ergebnis ist eine explizite, unterscheidbare Trennung zwischen sprachlichem Kontext und strukturiertem Wissen, die dennoch eine enge Ausrichtung durch Cross‑Attention ermöglicht. Diese Innovation eröffnet neue Wege für Anwendungen, die sowohl natürliche Sprache als auch komplexe Wissensgraphen effizient nutzen müssen.