VisTIRA schließt Bild-Text-Lücke in visueller Mathematik
Vision‑Language‑Modelle (VLMs) schneiden bei mathematischem Denken schlechter ab als reine Text‑Modelle, wenn dieselben Aufgaben als Bilder vorliegen. Der Unterschied, der als „Modality‑Gap“ bezeichnet wird, entsteht vo…