Forschung
VISTA-Gym: Skalierbares Training für Tool‑Reasoning in Vision‑Language‑Modellen
Vision‑Language‑Modelle (VLMs) verstehen Bilder bereits sehr gut, aber ihre Fähigkeit, komplexe visuelle Aufgaben Schritt für Schritt zu lö…
arXiv – cs.AI