NeuroCognition‑Benchmark enthüllt Schwächen großer Sprachmodelle
Eine neue Studie aus dem arXiv hat ein neuartiges Benchmarking‑Tool vorgestellt, das die kognitiven Fähigkeiten von großen Sprachmodellen (LLMs) aus neuropsychologischer Sicht bewertet.
Die Analyse von 156 Modellen zeigte, dass LLMs einen einheitlichen „General‑Faktor“ besitzen, der ihre Leistung über zehn unterschiedliche Aufgaben hinweg erklärt.
Trotz dieser Stärke bleiben viele Modelle bei einfachen, für Menschen trivialen Aufgaben hinter den Erwartungen zurück, weil herkömmliche Benchmarks vor allem die reine Aufgabenerfüllung messen und die zugrunde liegenden kognitiven Prozesse vernachlässigen.
Um diese Lücke zu schließen, wurde der NeuroCognition‑Benchmark entwickelt, der drei anerkannte neuropsychologische Tests adaptiert: die Raven‑Progressiven Matrizen für abstraktes relationales Denken, die Spatial Working Memory‑Aufgabe zur Messung von Gedächtnis und systematischer Suche sowie der Wisconsin Card Sorting Test für kognitive Flexibilität.
Die Ergebnisse zeigen, dass die Modelle bei textbasierten Aufgaben stark abschneiden, jedoch bei Bildaufgaben und steigender Komplexität deutlich schlechter performen. Komplexes logisches Denken wirkt sich nicht immer positiv aus, während einfache, menschenähnliche Strategien teilweise zu Verbesserungen führen.
NeuroCognition korreliert positiv mit den üblichen General‑Capability‑Benchmarks, misst aber gleichzeitig kognitive Fähigkeiten, die dort nicht erfasst werden.
Der Benchmark hebt klar hervor, wo LLMs bereits menschenähnliche Intelligenz zeigen und wo ihnen essentielle adaptive kognitive Kompetenzen fehlen. Er bietet damit eine verifizierbare, skalierbare Grundlage, um die Entwicklung von Sprachmodellen gezielt zu verbessern.