Forschung arXiv – cs.LG

RISE verbessert Bildannotation in VLMs durch selbstgesteuertes Reasoning

Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche S…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterk…
  • Dabei konzentriert sich das herkömmliche Supervised Fine‑Tuning (SFT) ausschließlich auf die Endergebnisse und vernachlässigt die zugrunde liegenden Begründungen.
  • Visual Reinforcement Fine‑Tuning (Visual‑RFT) erzeugt dagegen inkonsistente Chains of Thought (CoTs), weil während des Pre‑Trainings keine hochwertigen, verifizierten Co…

Vision‑Language‑Modelle (VLMs) haben bislang Schwierigkeiten bei komplexen Bildannotationsaufgaben wie der Klassifizierung von Emotionen oder kontextabhängiger Objekterkennung. Dabei konzentriert sich das herkömmliche Supervised Fine‑Tuning (SFT) ausschließlich auf die Endergebnisse und vernachlässigt die zugrunde liegenden Begründungen. Visual Reinforcement Fine‑Tuning (Visual‑RFT) erzeugt dagegen inkonsistente Chains of Thought (CoTs), weil während des Pre‑Trainings keine hochwertigen, verifizierten CoTs vorhanden sind.

Mit dem neuen Ansatz RISE (Reason‑Inspire‑Strengthen‑Expertise) wird dieses Problem in zwei Phasen angegangen. In der Reason‑Phase (RISE‑CoT) nutzt ein reinforcement‑learning‑gesteuerter „Annotation‑Reasoning‑Annotation“-Schleifenmechanismus visuell fundierte, logisch konsistente CoTs. Diese werden daraufhin überprüft, ob sie die ursprünglichen Annotationen ohne direkte Leckage rekonstruieren können. Anschließend werden in der Inspire‑ und Strengthen‑Phase (RISE‑R1) die besten CoTs, die durch die RISE‑CoT‑Belohnungen gefiltert wurden, für ein supervised‑Fine‑Tuning verwendet und anschließend durch reinforcement‑Fine‑Tuning weiter optimiert. Das Ergebnis sind interpretierbare Begründungen und präzise Annotationen, die ein hohes Maß an Expertise in anspruchsvollen visuellen Aufgaben demonstrieren.

In Tests auf komplexen und einfachen Bildannotationsaufgaben übertrifft das RISE‑trainierte Qwen2‑VL‑2B sowohl SFT als auch Visual‑RFT. Die Modelle zeigen eine robuste Leistung und eine verbesserte Erklärbarkeit. RISE liefert damit eine selbstgesteuerte Lösung, um die Reasoning‑Fähigkeiten von VLMs zu steigern, ohne dass manuell annotierte CoTs erforderlich sind.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Vision‑Language‑Modelle
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Bildannotation
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Emotionserkennung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen