Rechenkraft statt Intuition: Warum LLMs in ToM-Tests robuster werden

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Neuste Untersuchungen zeigen, dass große Sprachmodelle (LLMs) bei Tests zur Theorie des Geistes (Theory of Mind, ToM) beeindruckende Ergebnisse erzielen. Gleichzeitig haben sich LLMs, die mit Verstärkungslernen und verifizierbaren Belohnungen (RLVR) trainiert wurden, in einer Vielzahl von Benchmarks deutlich verbessert. In einer aktuellen Studie wird nun untersucht, wie sich diese „Rechenorientierten“ Modelle in ToM-Aufgaben verhalten.

Die Analyse offenbart, dass die RLVR-Modelle konsequent robuster auf Variationen in den Eingabeaufforderungen und auf leichte Störungen der Aufgabenstellung reagieren. Die beobachteten Leistungssteigerungen lassen sich am besten damit erklären, dass die Modelle zuverlässiger die korrekte Lösung finden, anstatt neue Formen von ToM‑Denken zu entwickeln.

Diese Erkenntnisse haben wichtige Konsequenzen für die Bewertung sozialkognitiver Fähigkeiten von LLMs. Anstatt ausschließlich auf die reine Trefferquote zu schauen, sollten Entwickler und Forscher die Robustheit gegenüber Prompt‑Variationen und Aufgaben‑Störungen stärker berücksichtigen, um ein realistisches Bild der tatsächlichen sozialen Intelligenz von KI-Systemen zu erhalten.

Ähnliche Artikel