LLMs zeigen starkes abstraktes visuelles Denken – Benchmark auf RAVEN-FAIR
In einer systematischen Untersuchung wurden vier große Sprachmodelle – GPT‑4.1‑Mini, Claude‑3.5‑Haiku, Gemini‑1.5‑Flash und Llama‑3.3‑70b – auf ihre Fähigkeiten im abstrakten visuellen Denken getestet. Dabei kamen vier…
- In einer systematischen Untersuchung wurden vier große Sprachmodelle – GPT‑4.1‑Mini, Claude‑3.5‑Haiku, Gemini‑1.5‑Flash und Llama‑3.3‑70b – auf ihre Fähigkeiten im abstr…
- Dabei kamen vier unterschiedliche Architekturen zum Einsatz: Single‑Shot, embedding‑controlled Repetition, Self‑Reflection und Multi‑Agent.
- Die Modelle erzeugten visuelle Antworten über einen dreistufigen Prozess: Zuerst wurden JSON‑Extraktionen vorgenommen, anschließend die eigentliche LLM‑Logik angewendet…
In einer systematischen Untersuchung wurden vier große Sprachmodelle – GPT‑4.1‑Mini, Claude‑3.5‑Haiku, Gemini‑1.5‑Flash und Llama‑3.3‑70b – auf ihre Fähigkeiten im abstrakten visuellen Denken getestet. Dabei kamen vier unterschiedliche Architekturen zum Einsatz: Single‑Shot, embedding‑controlled Repetition, Self‑Reflection und Multi‑Agent.
Die Modelle erzeugten visuelle Antworten über einen dreistufigen Prozess: Zuerst wurden JSON‑Extraktionen vorgenommen, anschließend die eigentliche LLM‑Logik angewendet und schließlich ein Tool‑Funktion-Mechanismus genutzt. Zur Bewertung wurden die Bildähnlichkeitsmaße SSIM und LPIPS herangezogen, zusätzlich wurden Chain‑of‑Thought‑Scores sowie Fehlerarten wie semantische Halluzinationen und numerische Missverständnisse analysiert.
Die Ergebnisse zeigen, dass GPT‑4.1‑Mini in allen Architekturen die höchste Gesamtgenauigkeit erreichte und damit eine besonders starke Rechenfähigkeit demonstriert. Die Multi‑Agent‑Architektur beeinflusste gelegentlich die semantische und numerische Balance, jedoch nicht konsequent positiv. Stattdessen zeigte jedes Modell ein einzigartiges Sensitivitätsprofil gegenüber der gewählten Architektur, was darauf hinweist, dass die Effektivität der Argumentation modellabhängig bleibt.
Ein weiteres Ergebnis war die Variation der Antwortabdeckung, die direkte Vergleiche zwischen Architekturen erschwert. Um die obere Grenze der Leistung jeder Konfiguration abzuschätzen, wurden die besten Ergebnisse aus fünf unabhängigen Läufen berichtet – ein Ansatz, der den aktuellen Empfehlungen entspricht, die auf die Fragilität einzelner Läufe hinweisen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.