Nur 15 % der Tokens sind entscheidend: Technik verbessert multimodale KI-Logik
Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deutlich gesteigert – doch wie werden visuelle Beweise während des Denkprozesses ta…
- Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deutlich gesteigert – doch wie we…
- In einer neuen Untersuchung wurde die Rolle der Kreuzmodalen Aufmerksamkeit genauer analysiert.
- Die Analyse zeigte, dass nur etwa 15 % der Tokens eine starke visuell‑textuelle Kopplung aufweisen.
Mit Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) wurden die Denkfähigkeiten multimodaler Large Language Models (MLLMs) deutlich gesteigert – doch wie werden visuelle Beweise während des Denkprozesses tatsächlich genutzt, blieb lange unklar. In einer neuen Untersuchung wurde die Rolle der Kreuzmodalen Aufmerksamkeit genauer analysiert.
Die Analyse zeigte, dass nur etwa 15 % der Tokens eine starke visuell‑textuelle Kopplung aufweisen. Diese hochvernetzten Tokens fungieren als „Anker“, die das Argumentieren an die Bildinhalte verankern, während der Großteil der Tokens lediglich sprachliche Muster folgt. Während des RLVR‑Trainings konzentriert sich die Kreditzuweisung automatisch auf diese Anker, wodurch deren visuelle Fundierung im Laufe der Zeit schärfer wird.
Auf Basis dieser Erkenntnisse wurde das Anchor‑Token Reinforcement Learning (AT‑RL) entwickelt – ein leichtgewichtiges Framework, das hochvernetzte Tokens gezielt durch graphbasiertes Clustering der Aufmerksamkeitsstruktur verstärkt. AT‑RL verursacht lediglich einen Overhead von 1,2 % und lässt das 32‑Billionen‑Parameter‑Modell die 72‑Billionen‑Parameter‑Instruct‑Baseline auf MathVista mit 80,2 Punkten übertreffen. Gleiche Verbesserungen wurden in STEM‑, Video‑ und allgemeinen Aufgaben beobachtet. Im Gegensatz dazu führt ein Training ausschließlich auf Tokens mit geringer Kopplung zu gravierenden Leistungsabfällen, was die Bedeutung präziser Kreditzuweisung für multimodales RL unterstreicht.
Die Ergebnisse zeigen eindeutig: Die Qualität multimodaler Argumentation wird nicht durch die Menge der Tokens bestimmt, sondern durch die Genauigkeit der Kreuzmodalen Anker. Diese Erkenntnis eröffnet neue Wege, um KI‑Modelle effizienter und zielgerichteter zu trainieren.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.