RISE verbessert Bildannotation in VLMs durch selbstgesteuertes Reasoning
Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche S…
- Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterk…
- Dabei konzentriert sich das herkömmliche Supervised Fine‑Tuning (SFT) ausschließlich auf die Endergebnisse und vernachlässigt die zugrunde liegenden Begründungen.
- Visual Reinforcement Fine‑Tuning (Visual‑RFT) erzeugt dagegen inkonsistente Chains of Thought (CoTs), weil während des Pre‑Trainings keine hochwertigen, verifizierten Co…
Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche Supervised Fine‑Tuning (SFT) ausschließlich auf die Endergebnisse und vernachlässigt die zugrunde liegenden Begründungen. Visual Reinforcement Fine‑Tuning (Visual‑RFT) erzeugt dagegen inkonsistente Chains of Thought (CoTs), weil während des Pre‑Trainings keine hochwertigen, verifizierten CoTs vorhanden sind.
Mit dem neuen Ansatz RISE (Reason‑Inspire‑Strengthen‑Expertise) wird dieses Problem in zwei Phasen angegangen. In der Reason‑Phase (RISE‑CoT) nutzt ein reinforcement‑learning‑gesteuerter „Annotation‑Reasoning‑Annotation“-Schleifenmechanismus visuell fundierte, logisch konsistente CoTs. Diese werden daraufhin überprüft, ob sie die ursprünglichen Annotationen ohne direkte Leckage rekonstruieren können. Anschließend werden in der Inspire‑ und Strengthen‑Phase (RISE‑R1) die besten CoTs, die durch die RISE‑CoT‑Belohnungen gefiltert wurden, für ein supervised‑Fine‑Tuning verwendet und anschließend durch reinforcement‑Fine‑Tuning weiter optimiert. Das Ergebnis sind interpretierbare Begründungen und präzise Annotationen, die ein hohes Maß an Expertise in anspruchsvollen visuellen Aufgaben demonstrieren.
In Tests auf komplexen und einfachen Bildannotationsaufgaben übertrifft das RISE‑trainierte Qwen2‑VL‑2B sowohl SFT als auch Visual‑RFT. Die Modelle zeigen eine robuste Leistung und eine verbesserte Erklärbarkeit. RISE liefert damit eine selbstgesteuerte Lösung, um die Reasoning‑Fähigkeiten von VLMs zu steigern, ohne dass manuell annotierte CoTs erforderlich sind.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.