QMAVIS: Revolutionäres Long-Video‑Audio‑Verständnis durch multimodale Fusion
In der Forschung zu Video‑Audio‑Verständnis wurden bisher große multimodale Modelle (LMMs) nur auf kurze Clips von wenigen Minuten getestet. Mit dem neuen Ansatz QMAVIS – Q Team‑Multimodal Audio Video Intelligent Sensemaking – wird dieses Limit durch eine späte Fusion von LMMs, großen Sprachmodellen und Spracherkennungs‑Systemen überwunden. Die Technik richtet sich gezielt an lange Videos, die von wenigen Minuten bis zu über einer Stunde reichen, und eröffnet damit neue Anwendungsmöglichkeiten in Bereichen wie Sensemaking, Videoinhaltsanalyse und embodied AI.