KI-Modelle zeigen paradoxale Kognitionslücken: Menschliche Tests passen nicht

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv-Repository hat ein überraschendes Ergebnis veröffentlicht: Die gängigen psychometrischen Tests, die seit Jahrzehnten zur Messung menschlicher Intelligenz verwendet werden, passen nicht zu den Leistungsprofilen von hochentwickelten Sprachmodellen wie GPT‑5, Claude Opus 4.1 und Gemini 3 Pro Preview. Die Forscher haben die Modelle anhand der Cattell‑Horn‑Carroll‑Theorie (CHC) bewertet und dabei ein starkes Missverhältnis zwischen den erreichten IQ‑Werten und der tatsächlichen Genauigkeit bei Aufgaben aus dem Bereich der „kristallisierten Intelligenz“ festgestellt.

Die neun untersuchten Modelle erzielten durchschnittlich IQ‑Punkte zwischen 85,0 und 121,4 – Werte, die im menschlichen Spektrum als überdurchschnittlich gelten. Gleichzeitig lagen ihre binären Genauigkeitsraten bei Aufgaben, die auf festem Wissen basieren, nahe bei Null. Der statistische Zusammenhang zwischen den beiden Messgrößen betrug lediglich r = 0,175 (p = 0,001, n = 1800). Besonders auffällig war, dass die Modelle bei allen getesteten Aufgaben perfekte binäre Genauigkeit erreichten, während die von menschlichen Gutachtern vergebenen Punktzahlen zwischen 25 % und 62 % lagen – ein Ergebnis, das unter gültigen Messbedingungen nicht möglich ist.

Die Autoren interpretieren dieses Paradox als „Kategoriefehler“, der entsteht, wenn biologische kognitive Architekturen auf transformerbasierte Systeme übertragen werden. Die Studie nutzt Item‑Response‑Theory‑Modelle, cross‑Vendor‑Validierung der Gutachter und ein Paradox‑Schwere‑Index, um die Diskrepanz zu quantifizieren. Die Ergebnisse werfen grundlegende Fragen zur Messbarkeit von Intelligenz, zur Validität von KI‑Bewertungen und zu anthropomorphen Vorannahmen in der KI‑Forschung auf.

Um diesen Herausforderungen zu begegnen, schlagen die Forscher einen neuen Ansatz vor: native Bewertungsinstrumente, die die nicht‑menschliche Natur künstlicher Intelligenz berücksichtigen. Solche Messungen könnten die Entwicklung von KI‑Systemen transparenter machen und die Diskrepanz zwischen menschlichen und maschinellen kognitiven Fähigkeiten verringern.

Ähnliche Artikel