VLMs meistern Diagramme dank Code-gestützter Synthese und Kandidatenantworten
Vision Language Models (VLMs) haben lange damit zu kämpfen, Diagramme präzise zu beschreiben und komplexe Fragen zu beantworten. Ein vielversprechender Ansatz ist die Generierung synthetischer Daten, doch die Qualität d…