MovieCORE: KI-gestützte Fragen zu Filmen – tieferes Verständnis
Die neueste Veröffentlichung auf arXiv (2508.19026v1) stellt MovieCORE vor, ein Video‑Frage‑Antwort‑Datensatz, der speziell dafür entwickelt wurde, das kognitive Verständnis von Filmen zu vertiefen. Im Gegensatz zu bisherigen Datensätzen, die sich meist auf oberflächliche Fragen konzentrieren, fordert MovieCORE die Modelle mit Aufgaben, die ein System‑2‑Denken erfordern und gleichzeitig eng an den Videoinhalten verankert sind.
Ein zentrales Merkmal von MovieCORE ist die agentische Brainstorming‑Methode. Hierbei werden mehrere große Sprachmodelle als „Denkschöpfer“ eingesetzt, die zunächst Fragen und Antworten generieren und anschließend gemeinsam verfeinern. Dieser kollaborative Ansatz sorgt für hochwertige, tiefgründige Frage‑Antwort‑Paare, die die Komplexität echter filmischer Inhalte widerspiegeln.
Zur Qualitätskontrolle wurden eine Reihe kognitiver Tests entwickelt, die Tiefe, Anregungspotenzial und syntaktische Komplexität bewerten. Darüber hinaus präsentiert die Arbeit ein umfassendes Bewertungsschema, um die Leistung von Video‑Sprachmodellen bei anspruchsvollen kognitiven Aufgaben zu messen. Um die Grenzen aktueller Modelle zu überwinden, wurde das Agentic Choice Enhancement (ACE) eingeführt, ein nachträgliches Modul, das die Rechenfähigkeit der Modelle um bis zu 25 % steigert.
MovieCORE trägt damit wesentlich dazu bei, die filmische Analyse in KI-Systemen zu verbessern, und liefert wertvolle Einblicke in die Stärken und Schwächen moderner VQA‑Modelle bei komplexen, nuancierten Fragen. Das Projekt, der Datensatz und der Code sind unter https://joslefaure.github.io/assets/html/moviecore.html verfügbar.