MyGram: Neuer Graph‑Transformer für multimodale Entitätsabstimmung
Die neueste Veröffentlichung auf arXiv (2601.11885v1) stellt MyGram vor – einen multimodalen Graph‑Transformer, der speziell für die Entitätsabstimmung zwischen Knowledge Graphen entwickelt wurde. Durch die Kombination von Bild‑ und Textdaten werden semantische Repräsentationen von Entitäten deutlich angereichert.
Ein zentrales Merkmal von MyGram ist das Modality‑Diffusion‑Learning‑Modul, das tiefgreifende strukturelle Kontextinformationen innerhalb jeder Modalität erfasst. Dadurch wird die Fusion von Bild‑ und Textfeatures feiner abgestimmt und die Gefahr von Störungen durch flache Merkmale reduziert.
Zusätzlich wird ein Gram‑Loss eingeführt, der als Regularisierung wirkt, indem er das Volumen eines vierdimensionalen Parallelepipeds, das durch die multimodalen Features gebildet wird, minimiert. Dieser Ansatz sorgt für eine globale Verteilungskonsistenz über die Modalitäten hinweg.
In Experimenten auf fünf öffentlichen Datensätzen übertraf MyGram die bisherigen Baseline‑Modelle deutlich. Die größten Verbesserungen wurden bei den Hits@1‑Raten erzielt: 4,8 % auf FBDB15K, 9,9 % auf FBYG15K und 4,3 % auf DBP15K. Diese Ergebnisse unterstreichen die Wirksamkeit der neuen Architektur für die multimodale Entitätsabstimmung.