GRAFT: Neues multimodales Benchmark für visuelle und textuelle Analyse
Die neueste Veröffentlichung auf arXiv, GRAFT, stellt ein strukturiertes multimodales Benchmark dar, das Modelle auf ihre Fähigkeit zur Befolgung von Anweisungen, visuellem Denken und der Ausrichtung von Bild- und Textinhalten prüft. Durch die programmgesteuerte Erstellung von Diagrammen und Tabellen mit Python‑Visualisierungstools wird die Kontrolle über Datenstruktur, Semantik und Klarheit gewährleistet.
Jede GRAFT‑Instanz kombiniert ein Bild eines Diagramms oder einer Tabelle mit einer systematisch generierten, mehrstufigen Analysefrage, die ausschließlich auf dem visuellen Inhalt basiert. Die Antworten werden in strukturierten Formaten wie JSON oder YAML geliefert, was eine einheitliche Bewertung sowohl der logischen Argumentation als auch des Ausgabeformats ermöglicht.
Das Benchmark umfasst eine Taxonomie von Denkprozessen – Vergleich, Trendidentifikation, Rangfolge, Aggregation, Proportionenschätzung und Anomalieerkennung – um ein umfassendes Bild der Fähigkeiten multimodaler Modelle zu zeichnen. Die Referenzantworten folgen strengen Fakten- und Formatierungsrichtlinien, die eine präzise, aspektebasierte Bewertung sicherstellen.
GRAFT bietet damit einen einheitlichen, skalierbaren Rahmen für die detaillierte Bewertung multimodaler Systeme bei visuell fundierten, strukturierten Analyseaufgaben und setzt damit einen neuen Standard in der Evaluierung dieser Technologie.