VLMs kämpfen mit Fakten: Zwei-Hüpfer-Problem erklärt

Eine neue Studie auf arXiv beleuchtet, warum viele Vision‑Language‑Modelle (VLMs) bei der Faktenwiedererkennung hinter ihren Sprachmodell‑Vorläufern zurückbleiben. Der Schlüssel liegt in einem „Zwei‑Hüpfer‑Problem“: Zuerst müssen die Modelle aus Bilddaten Entitäten bilden, danach müssen sie die zugehörigen Fakten abrufen.

Die Forscher haben 14 VLMs unterschiedlicher Architekturen und Größen – von 7 B bis 124 B Parametern – auf Fakten‑Recall‑Aufgaben getestet und mit den ursprünglichen Large‑Language‑Modellen (LLMs) verglichen. Dabei zeigte sich, dass 11 der 14 Modelle eine deutliche Leistungseinbuße erlitten.

Durch Attribution‑ und Aktivierungs‑Patching sowie gezielte Probes wurde klar, dass die schlecht abschneidenden VLMs die erste Phase des Entitäten‑Baus zu spät im Rechenstrom erledigen. Dadurch können sie die bereits vorhandene Fakten‑Wiedererkennungs‑Schaltung ihres LLM‑Backbones nicht effektiv nutzen. Im Gegensatz dazu setzen die leistungsstarken Modelle die Entitäten früh genug zusammen und können die vorhandene Mechanik wiederverwenden.

Die Autoren demonstrieren zwei Wege, die Leistung zu verbessern: Erstens durch das „Patchen“ von Entitätsrepräsentationen aus dem LLM‑Backbone in das VLM, und zweitens durch gezielte Prompt‑Strategien, die chain‑of‑thought‑Reasoning nutzen. Diese Ansätze zeigen, dass die Geschwindigkeit der Entitätsbildung entscheidend für die Faktenwiedererkennung ist.

Die Ergebnisse unterstreichen, dass multimodale Feinabstimmung nicht automatisch die gleichen Mechanismen wie reine Sprachmodelle nutzt. Stattdessen müssen VLMs ihre Architektur so anpassen, dass die Entitätsbildung früh genug erfolgt, um die vorhandenen Fakten‑Schaltkreise effektiv zu aktivieren.

Ähnliche Artikel

🍪 Cookie-Einstellungen