Bongard‑RWR+: 5.400 realistische Bilder testen KI‑Visual Reasoning
Die neueste Erweiterung des Bongard‑RWR‑Datensatzes, Bongard‑RWR+, bietet mit 5.400 Beispielen eine beispiellose Plattform, um die Fähigkeit von KI‑Modellen zu prüfen, abstrakte visuelle Konzepte aus wenigen Bildern zu erkennen und in natürlicher Sprache zu beschreiben.
Während die ursprünglichen Bongard‑Probleme auf synthetischen Schwarz‑weiß‑Zeichnungen basierten, und spätere Versionen reale Fotos nutzten, konnten diese letzten nur hochgradige Bildmerkmale erfassen. Bongard‑RWR+ löst dieses Problem, indem es fein abgestufte, realitätsnahe Bilder erzeugt, die die ursprünglichen abstrakten Konzepte exakt widerspiegeln.
Die Datensatzgenerierung erfolgt über einen Vision‑Language‑Model‑Pipeline: Zuerst beschreibt das Modell Pixtral‑12B manuell kuratierte Bilder, anschließend erstellt Flux.1‑dev neue Bilder aus diesen Beschreibungen. Jede erzeugte Bild‑Beschreibung wird anschließend von Menschen überprüft, um die Übereinstimmung mit dem zugrunde liegenden Konzept sicherzustellen.
In einer umfassenden Evaluation wurden führende VLM‑Modelle auf verschiedene Bongard‑Aufgaben getestet – von binärer und mehrklassiger Klassifikation bis hin zur textbasierten Antwortgenerierung. Die Ergebnisse zeigen, dass die Modelle bei der Erkennung von groben visuellen Merkmalen stark sind, jedoch bei der präzisen Erfassung der feinen Konzepte noch deutlich Nachholbedarf besteht.