TIM-PRM: Tool-gestützte Verifikation multimodaler Modelle
Multimodale große Sprachmodelle (MLLMs) haben in der mathematischen Logik beeindruckende Fortschritte erzielt, bleiben jedoch anfällig für visuelle Halluzinationen und logische Inkonsistenzen. Standardisierte, ergebnisbasierte Überwachungsansätze können diese Fehler nicht zuverlässig ausmerzen. Process Reward Models (PRMs) versprechen eine schrittweise Verifikation, doch bisherige Varianten agieren meist als Skalar‑Bewertungsfunktionen oder generative Kritiker, die häufig unkritisch falsche Hypothesen bestätigen, anstatt sie mit visuellen Beweisen abzugleichen.
Um dieses Problem zu lösen, präsentiert das Team TIM-PRM – ein Tool-Integrated Multimodal PRM. Der Ansatz wandelt die Verifikation von einer passiven Klassifikation in eine aktive, tool‑unterstützte Untersuchung um. TIM-PRM wird darauf trainiert, explizit Verifikationsstrategien zu planen und nutzt dabei ein „Independent Question Asking“-Modul, das Beweise über externe Werkzeuge abfragt. Dadurch wird die Verifikation vom ursprünglichen Denkprozess getrennt und der Bestätigungs‑Bias eliminiert.
Die Autoren haben ein hochwertiges Datenset mit tool‑integrierten Verifikationspfaden erstellt und umfangreiche Experimente auf VisualProcessBench durchgeführt. Das 8‑Billionen‑Parameter‑Modell übertrifft bestehende Open‑Source‑MLLM‑PRMs deutlich und liefert sogar bessere Ergebnisse als größere Modelle wie Qwen2.5‑72B und InternVL‑78B. Gleichzeitig bietet TIM-PRM nachvollziehbare Einblicke in den Verifikationsprozess, was die Transparenz und das Vertrauen in multimodale KI‑Systeme stärkt.