LLMs replizieren menschliche Kooperation in Spieltheorie-Experimenten
In den letzten Jahren werden große Sprachmodelle (LLMs) vermehrt eingesetzt, um Entscheidungen in Bereichen wie Gesundheit, Bildung und Recht zu treffen und menschliches Verhalten zu simulieren. Wie genau diese Modelle jedoch menschliche Entscheidungsprozesse nachbilden, ist bislang wenig erforscht. Diese Lücke ist entscheidend, denn eine Fehlanpassung kann zu schädlichen Konsequenzen führen, während eine fehlende Repräsentation die Nützlichkeit von LLMs für soziale Simulationen stark einschränkt.
Um dieses Problem anzugehen, haben die Forscher einen digitalen Zwilling von spieltheoretischen Experimenten entwickelt und ein systematisches Prompting- sowie Probe-Framework zur Bewertung des Maschinenverhaltens eingeführt. Dabei wurden drei Open‑Source‑Modelle – Llama, Mistral und Qwen – getestet.
Die Ergebnisse zeigen, dass Llama menschliche Kooperationsmuster mit hoher Genauigkeit reproduziert und dabei Abweichungen vom rationalen Wahltheorie-Modell erfasst. Qwen hingegen folgt eng den Vorhersagen des Nash‑Equilibriums. Besonders bemerkenswert ist, dass die Modelle auf Bevölkerungsebene ohne persona‑basierte Prompting‑Strategien repliziert wurden, was den Simulationsprozess stark vereinfacht.
Darüber hinaus generierten die Autoren und registrierten im Voraus testbare Hypothesen für neue Spielkonfigurationen außerhalb des ursprünglichen Parameterraums. Diese Erweiterung ermöglicht die systematische Erkundung bislang unerforschter experimenteller Räume.
Die Studie demonstriert, dass gut kalibrierte LLMs aggregierte menschliche Verhaltensmuster exakt nachbilden können und damit eine ergänzende Methode zur traditionellen Forschung in den Sozial- und Verhaltenswissenschaften darstellen. Durch die Erzeugung neuer empirischer Vorhersagen über menschliche soziale Entscheidungsfindung eröffnen sich neue Wege für die Analyse und das Verständnis komplexer sozialer Interaktionen.