MaRVL‑QA: Neues Benchmark für mathematisches Denken aus Bildern
Die jüngsten Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben gezeigt, dass sie nicht nur Bilder beschreiben, sondern auch komplexe mathematische und räumliche Aufgaben lösen können. Ein entscheidender Schritt besteht darin, diese Modelle dazu zu bringen, aus visuellen Darstellungen direkt zu logischen Schlüsse zu gelangen, anstatt lediglich semantische Beschreibungen zu liefern.