VLMs meistern Diagramme dank Code-gestützter Synthese und Kandidatenantworten
Vision Language Models (VLMs) haben lange damit zu kämpfen, Diagramme präzise zu beschreiben und komplexe Fragen zu beantworten. Ein vielversprechender Ansatz ist die Generierung synthetischer Daten, doch die Qualität der Labels bleibt oft fraglich. Mit dem neuen Ansatz „Chart‑CoCa“ wird dieses Problem elegant gelöst.
Chart‑CoCa nutzt einen Code‑generierenden Synthese‑Pipeline, der automatisch Diagramme, passende Fragen und korrekte Antworten erzeugt. Durch das Ausführen des generierten Codes wird die Zuverlässigkeit der Daten garantiert – ganz ohne menschliche Intervention. Zusätzlich wird ein Kandidaten‑basiertes Antwortverfahren eingeführt: Das VLM erstellt zunächst mehrere mögliche Antworten zu einer Frage und kombiniert diese anschließend zu einer finalen, kontextualisierten Antwort.
Die Ergebnisse sind beeindruckend: In einer vollständig selbstverbessernden Umgebung, ohne menschlich gelabelte Daten oder externe Modelle, konnte die Genauigkeit um bis zu 15,50 Punkte gesteigert werden. Chart‑CoCa zeigt damit, dass VLMs mit gezielter Synthese und intelligenter Antwortaggregation Diagramme zuverlässig verstehen können.