TRACE: Framework zur Analyse schrittweiser Logik in Vision‑Language‑Modellen
Die Fähigkeit großer Vision‑Language‑Modelle, mathematische und wissenschaftliche Probleme zuverlässig zu lösen, ist nach wie vor ein offenes Problem. Traditionelle Prüfungen, die nur das Endergebnis bewerten, verbergen häufig Fehler in den Zwischenschritten und lassen stille Ausfälle unbemerkt.
Um diesem Defizit entgegenzuwirken, wurde TRACE – Transparent Reasoning And Consistency Evaluation – entwickelt. Das neue Framework untersucht die gesamten Denkpfade eines Modells, statt lediglich die finale Antwort zu prüfen. Dadurch werden Fehlerquellen sichtbar, die bei herkömmlichen Tests verborgen bleiben.
Zentral für TRACE ist die Idee der Auxiliary Reasoning Sets (ARS). Dabei werden komplexe Aufgaben in kompakte Unterfragen und deren Antworten zerlegt. Die Zwischenschritte werden anschließend anhand konsistenzbasierter Metriken bewertet, wodurch Fehler frühzeitig erkannt werden können.
Experimentelle Ergebnisse zeigen, dass die Konsistenz über die ARS hinweg stark mit der Richtigkeit der Endantwort korreliert. TRACE liefert damit gezielte Hinweise darauf, an welchen Stellen das Modell scheitert, und ermöglicht damit konkrete Verbesserungsmaßnahmen. Zusätzlich definiert das System Konfidenzbereiche, die zuverlässige von unzuverlässigen Denkpfaden unterscheiden, was effektives Filtern, Debugging und Modellverfeinerung unterstützt.