Benchmark VECTOR zeigt Schwächen Video-Modelle – MECOT verbessert Zeitverständnis
In einer neuen Studie von Forschern aus dem Bereich der multimodalen Videoanalyse wird deutlich, dass aktuelle Video‑Large‑Multimodal‑Modelle (VLMMs) zwar beeindruckende Leistungen bei der allgemeinen Video‑Verständnisaufgabe erbringen, jedoch bei der präzisen Erfassung der zeitlichen Reihenfolge von Ereignissen stark schwächeln. Selbst wenn die Bildfolgen eines Videos zufällig durcheinandergeworfen werden, erzielen die Modelle auf bestehenden Benchmarks weiterhin hohe Scores – ein Hinweis darauf, dass sie sich nicht ausschließlich auf die sequentielle Verarbeitung von Bildinhalten verlassen, sondern vielmehr auf ihr Vorwissen über typische Szenarien zurückgreifen.