SHRIKE: Multi-Modal Scene Graph mit Kolmogorov-Arnold Experten für Audio-Visual QA
In einer neuen Veröffentlichung präsentiert das Forschungsteam SHRIKE, ein innovatives Multi-Modal Scene Graph System, das Audio- und Videoinformationen kombiniert, um Fragen zu Audio-Visual-Szenen zu beantworten. Ziel ist es, menschliches Denken nachzuahmen, indem relevante Hinweise aus komplexen Audio-Visual-Inhalten extrahiert und zusammengeführt werden.
Der Ansatz löst ein langjähriges Problem: bisherige Methoden konnten die strukturelle Information von Videos nicht adäquat erfassen und fehlten an einer feingranularen Modellierung multimodaler Merkmale. SHRIKE führt erstmals einen strukturierten, visuell fundierten Scene Graph ein, der Objekte und deren Beziehungen explizit darstellt und damit die Szene in einer klaren, graphbasierten Form abbildet.
Ein weiteres Highlight ist die Integration eines Kolmogorov‑Arnold‑Netzwerks (KAN) als Mixture‑of‑Experts (MoE). Dieses Netzwerk verstärkt die Ausdruckskraft der zeitlichen Integrationsphase, ermöglicht feinere Kreuzmodalinteraktionen und erfasst dadurch reichhaltigere, nuanciertere Muster. Das Ergebnis ist eine verbesserte Fähigkeit zur zeitlichen Argumentation und damit eine höhere Genauigkeit bei der Beantwortung von Fragen.
Die Leistung von SHRIKE wurde an den etablierten Benchmarks MUSIC‑AVQA und MUSIC‑AVQA v2 getestet, wo das System den aktuellen Stand der Technik übertrifft. Der Code sowie die Modell‑Checkpoints werden öffentlich zugänglich gemacht, sodass die Forschungsgemeinschaft die Ergebnisse reproduzieren und weiterentwickeln kann.