Neues RL-Framework verbessert visuelle Dokumenten-Antworten um 47 %
Ein neues arXiv-Papier mit dem Titel „Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning“ präsentiert einen innovativen Ansatz zur Verbesserung der Genauigkeit von Vision‑Language‑Modellen (VLMs) bei multimodalen Frage‑Antwortaufgaben. Das Ziel ist es, aus visuellen Dokumenten präzise Beweisspuren zu extrahieren, damit die generierten Antworten nachvollziehbar und verifizierbar sind.
Derzeit setzen die meisten Methoden auf ein end‑to‑end‑Training, das zwar intuitive Antworten liefert, aber keine feinkörnige Überwachung der einzelnen Schritte des Denkprozesses ermöglicht. Dadurch fehlt die Möglichkeit, die Herkunft jeder Aussage systematisch zu verfolgen. Das vorgestellte „Chain‑of‑Evidence“ (CoE)-Paradigma verbindet die bewährte Chain‑of‑Thought‑Logik mit einer visuellen Evidenzzuordnung. Jeder Schritt der Argumentation wird dabei mit konkreten Bildregionen, Bounding‑Boxen und Seitenindizes verknüpft.
Um VLMs zu befähigen, solche evidenzbasierten Denkpfade zu erzeugen, wird das Reinforcement‑Learning‑Framework „Look As You Think“ (LAT) eingesetzt. Während des Trainings bewertet LAT die Konsistenz der Beweiserfassung und vergibt Belohnungen ausschließlich, wenn der gesamte CoE‑Pfad zu einer korrekten Antwort führt. Dieser Ansatz fördert eine prozessuale Selbstverifikation und stärkt die Zuverlässigkeit der Modelle.
In Experimenten mit dem Modell Qwen2.5‑VL‑7B‑Instruct auf den Paper‑ und Wiki‑VISA‑Benchmarks erzielte LAT signifikante Verbesserungen: ein durchschnittlicher Anstieg von 8,23 % bei der Soft‑Exact‑Match‑Metrik und ein bemerkenswerter 47,0 % bei IoU@0,5. Darüber hinaus übertrifft LAT sogar die Supervised‑Fine‑Tuning‑Baseline, die direkt auf die Beweiserstellung trainiert wurde. Diese Ergebnisse zeigen, dass die Kombination aus CoE und LAT die Verifizierbarkeit von Antworten in multimodalen Systemen deutlich steigern kann.
Die vorgestellte Methode eröffnet neue Möglichkeiten für Anwendungen, bei denen die Nachvollziehbarkeit von Entscheidungen entscheidend ist – etwa in der juristischen Dokumentenanalyse, im medizinischen Berichtswesen oder in der automatisierten Prüfung von wissenschaftlichen Publikationen. Durch die klare Zuordnung von Argumenten zu visuellen Beweisen wird die Vertrauenswürdigkeit von KI‑gestützten Antworten nachhaltig erhöht.