RISE verbessert Bildannotation in VLMs durch selbstgesteuertes Reasoning
Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche Supervised Fine‑Tuning (SFT) ausschließlich auf die Endergebnisse und vernachlässigt die zugrunde liegenden Begründungen. Visual Reinforcement Fine‑Tuning (Visual‑RFT) erzeugt dagegen inkonsistente Chains of Thought (CoTs), weil während des Pre‑Trainings keine hochwertigen, verifizierten CoTs vorhanden sind.
Mit dem neuen Ansatz RISE (Reason‑Inspire‑Strengthen‑Expertise) wird dieses Problem in zwei Phasen angegangen. In der Reason‑Phase (RISE‑CoT) nutzt ein reinforcement‑learning‑gesteuerter „Annotation‑Reasoning‑Annotation“-Schleifenmechanismus visuell fundierte, logisch konsistente CoTs. Diese werden daraufhin überprüft, ob sie die ursprünglichen Annotationen ohne direkte Leckage rekonstruieren können. Anschließend werden in der Inspire‑ und Strengthen‑Phase (RISE‑R1) die besten CoTs, die durch die RISE‑CoT‑Belohnungen gefiltert wurden, für ein supervised‑Fine‑Tuning verwendet und anschließend durch reinforcement‑Fine‑Tuning weiter optimiert. Das Ergebnis sind interpretierbare Begründungen und präzise Annotationen, die ein hohes Maß an Expertise in anspruchsvollen visuellen Aufgaben demonstrieren.
In Tests auf komplexen und einfachen Bildannotationsaufgaben übertrifft das RISE‑trainierte Qwen2‑VL‑2B sowohl SFT als auch Visual‑RFT. Die Modelle zeigen eine robuste Leistung und eine verbesserte Erklärbarkeit. RISE liefert damit eine selbstgesteuerte Lösung, um die Reasoning‑Fähigkeiten von VLMs zu steigern, ohne dass manuell annotierte CoTs erforderlich sind.