Vision‑Language‑Programme: Bildverständnis trifft systematisches Denken
Vision‑Language‑Modelle (VLMs) haben in den letzten Jahren beeindruckende Fortschritte bei multimodalen Aufgaben erzielt, doch bei systematischem visuellen Denken stoßen sie häufig an ihre Grenzen. Die Modelle liefern oft inkonsistente oder logikfehlerhafte Ergebnisse, weil die zugrunde liegende Wahrnehmung nicht flexibel genug ist, um komplexe Zusammenhänge zu erfassen.