Benchmark VECTOR zeigt Schwächen Video-Modelle – MECOT verbessert Zeitverständnis

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In einer neuen Studie von Forschern aus dem Bereich der multimodalen Videoanalyse wird deutlich, dass aktuelle Video‑Large‑Multimodal‑Modelle (VLMMs) zwar beeindruckende Leistungen bei der allgemeinen Video‑Verständnisaufgabe erbringen, jedoch bei der präzisen Erfassung der zeitlichen Reihenfolge von Ereignissen stark schwächeln. Selbst wenn die Bildfolgen eines Videos zufällig durcheinandergeworfen werden, erzielen die Modelle auf bestehenden Benchmarks weiterhin hohe Scores – ein Hinweis darauf, dass sie sich nicht ausschließlich auf die sequentielle Verarbeitung von Bildinhalten verlassen, sondern vielmehr auf ihr Vorwissen über typische Szenarien zurückgreifen.

Um die Fähigkeit von VLMMs, Ereignisse in der richtigen Reihenfolge zu erkennen, gezielt zu prüfen, stellen die Autoren das neue Benchmark‑Set VECTOR vor. VECTOR verlangt von den Modellen, die zeitliche Abfolge mehrerer Ereignisse in einem Video eindeutig zu bestimmen. Die Ergebnisse zeigen, dass viele führende VLMMs bei VECTOR deutlich schlechter abschneiden als bei herkömmlichen Aufgaben, was die Lücke im zeitlichen Verständnis unterstreicht.

Als Lösung schlagen die Forscher MECOT (Multi‑Event Instruction Fine‑Tuning with Chain‑of‑Thought) vor. MECOT kombiniert zwei Ansätze: Erstens wird das Modell mit detaillierten, ereignisbasierten Video‑Beschreibungen feinjustiert, sodass es die einzelnen Schritte eines Ablaufs besser versteht. Zweitens nutzt es bei der Inferenz sogenannte Chain‑of‑Thought‑Prompts, die das Modell dazu anregen, seine Gedanken zu strukturieren und dadurch die zeitliche Reihenfolge explizit zu berücksichtigen. MECOT erzielt auf VECTOR deutlich bessere Ergebnisse als bisherige Methoden und verbessert zudem die Leistung auf etablierten Video‑Benchmarks.

Die Autoren stellen ihren Code, das trainierte Modell sowie die zugehörigen Datensätze öffentlich zur Verfügung, um die Forschung in diesem wichtigen Bereich weiter voranzutreiben. Diese Entwicklungen markieren einen bedeutenden Schritt hin zu Video‑Modellen, die nicht nur Inhalte erkennen, sondern auch deren zeitliche Abfolge zuverlässig nachvollziehen können.

Ähnliche Artikel