LLMs zeigen starkes abstraktes visuelles Denken

Kernaussagen

Das nimmst du aus dem Beitrag mit

In einer systematischen Untersuchung wurden vier große Sprachmodelle – GPT‑4.1‑Mini, Claude‑3.5‑Haiku, Gemini‑1.5‑Flash und Llama‑3.3‑70b – auf ihre Fähigkeiten im abstr…
Dabei kamen vier unterschiedliche Architekturen zum Einsatz: Single‑Shot, embedding‑controlled Repetition, Self‑Reflection und Multi‑Agent.
Die Modelle erzeugten visuelle Antworten über einen dreistufigen Prozess: Zuerst wurden JSON‑Extraktionen vorgenommen, anschließend die eigentliche LLM‑Logik angewendet…

In einer systematischen Untersuchung wurden vier große Sprachmodelle – GPT‑4.1‑Mini, Claude‑3.5‑Haiku, Gemini‑1.5‑Flash und Llama‑3.3‑70b – auf ihre Fähigkeiten im abstrakten visuellen Denken getestet. Dabei kamen vier unterschiedliche Architekturen zum Einsatz: Single‑Shot, embedding‑controlled Repetition, Self‑Reflection und Multi‑Agent.

Die Modelle erzeugten visuelle Antworten über einen dreistufigen Prozess: Zuerst wurden JSON‑Extraktionen vorgenommen, anschließend die eigentliche LLM‑Logik angewendet und schließlich ein Tool‑Funktion-Mechanismus genutzt. Zur Bewertung wurden die Bildähnlichkeitsmaße SSIM und LPIPS herangezogen, zusätzlich wurden Chain‑of‑Thought‑Scores sowie Fehlerarten wie semantische Halluzinationen und numerische Missverständnisse analysiert.

Die Ergebnisse zeigen, dass GPT‑4.1‑Mini in allen Architekturen die höchste Gesamtgenauigkeit erreichte und damit eine besonders starke Rechenfähigkeit demonstriert. Die Multi‑Agent‑Architektur beeinflusste gelegentlich die semantische und numerische Balance, jedoch nicht konsequent positiv. Stattdessen zeigte jedes Modell ein einzigartiges Sensitivitätsprofil gegenüber der gewählten Architektur, was darauf hinweist, dass die Effektivität der Argumentation modellabhängig bleibt.

Ein weiteres Ergebnis war die Variation der Antwortabdeckung, die direkte Vergleiche zwischen Architekturen erschwert. Um die obere Grenze der Leistung jeder Konfiguration abzuschätzen, wurden die besten Ergebnisse aus fünf unabhängigen Läufen berichtet – ein Ansatz, der den aktuellen Empfehlungen entspricht, die auf die Fragilität einzelner Läufe hinweisen.

Einordnen in 60 Sekunden