VisTIRA schließt Bild-Text-Lücke in visueller Mathematik
Vision‑Language‑Modelle (VLMs) schneiden bei mathematischem Denken schlechter ab als reine Text‑Modelle, wenn dieselben Aufgaben als Bilder vorliegen. Der Unterschied, der als „Modality‑Gap“ bezeichnet wird, entsteht vor allem durch Schwierigkeiten beim Lesen dichter Formeln, komplexer Layouts und gemischter symbolischer sowie diagrammatischer Inhalte.