QMAVIS: Revolutionäres Long-Video‑Audio‑Verständnis durch multimodale Fusion

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Forschung zu Video‑Audio‑Verständnis wurden bisher große multimodale Modelle (LMMs) nur auf kurze Clips von wenigen Minuten getestet. Mit dem neuen Ansatz QMAVIS – Q Team‑Multimodal Audio Video Intelligent Sensemaking – wird dieses Limit durch eine späte Fusion von LMMs, großen Sprachmodellen und Spracherkennungs‑Systemen überwunden. Die Technik richtet sich gezielt an lange Videos, die von wenigen Minuten bis zu über einer Stunde reichen, und eröffnet damit neue Anwendungsmöglichkeiten in Bereichen wie Sensemaking, Videoinhaltsanalyse und embodied AI.

Die experimentellen Ergebnisse sind beeindruckend: Auf dem VideoMME‑Datensatz, der lange Videos mit Untertiteln enthält, erzielt QMAVIS eine Steigerung von 38,75 % gegenüber den aktuellen Spitzenmodellen VideoLLaMA2 und InternVL2. Auf weiteren anspruchsvollen Datensätzen wie PerceptionTest und EgoSchema liegen die Verbesserungen bei bis zu 2 %, was die Wettbewerbsfähigkeit des Ansatzes unterstreicht.

Qualitative Analysen zeigen, dass QMAVIS nicht nur einzelne Szenen erkennt, sondern auch die übergreifende Erzählstruktur eines langen Videos versteht. Ablationsstudien verdeutlichen, welchen Beitrag jeder Bestandteil der Fusion zum Gesamterfolg leistet.

Ähnliche Artikel