Neues Framework NSG-MoE trennt Knoten und optimiert multimodale Graphen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Multimodale Graphen gewinnen zunehmend an Bedeutung, weil sie komplexe Strukturen aus unterschiedlichen Modalitäten – etwa Text, Bild und Audio – zusammenführen können. Gleichzeitig führen sie zu starkem Modus‑Verwirrung, bei dem Informationen aus verschiedenen Quellen ungewollt vermischt werden. Um dieses Problem zu lösen, hat ein Forschungsteam das neue Framework NSG‑MoE entwickelt.

NSG‑MoE kombiniert einen Knoten‑Split‑ und Graph‑Rewire‑Mechanismus mit einer strukturierten Mixture‑of‑Experts (MoE)-Architektur. Jeder Knoten wird in modalitäts­spezifische Komponenten zerlegt, und experten‑basierte Module, die auf die jeweilige Beziehung abgestimmt sind, verarbeiten die heterogenen Nachrichtenflüsse. Dadurch bleibt die ursprüngliche Struktur erhalten, während die multimodalen Semantiken sauber getrennt bleiben und die unerwünschte Vermischung, die bei herkömmlichen GNNs häufig auftritt, reduziert wird.

In umfangreichen Tests auf drei multimodalen Benchmark‑Datensätzen übertrifft NSG‑MoE konsequent starke Baselines. Trotz der typischerweise hohen Rechenkosten von MoE‑Modellen bleibt die Trainingsgeschwindigkeit konkurrenzfähig. Eine spektrale Analyse zeigt, dass NSG adaptive Filterung in modalitäts­spezifischen Unterräumen durchführt, was das Entwirren der Signale erklärt. Zusätzlich demonstriert eine informationstheoretische Untersuchung, dass die architektonischen Beschränkungen von NSG die gegenseitige Information zwischen Daten und Parametern verringern, was die Generalisierungsfähigkeit verbessert.

Ähnliche Artikel