Anker in der Maschine: Beweise für Anker‑Bias in Sprachmodellen

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Wissenschaftler untersuchen große Sprachmodelle (LLMs) zunehmend nicht nur als Werkzeuge, sondern auch als „Verhaltensobjekte“. Dabei stellt sich die Frage, ob beobachtete kognitive Verzerrungen lediglich oberflächliche Nachahmungen sind oder tiefere Wahrscheinlichkeitsverschiebungen widerspiegeln. Der klassische Anker‑Bias – die Tendenz, sich bei Schätzungen zu stark auf einen Ausgangswert zu stützen – bietet hierfür ein ideales Testfeld.

In der aktuellen Studie wurden drei zentrale Ansätze kombiniert: Erstens eine Analyse der Log‑Wahrscheinlichkeiten, die zeigt, dass Anker die gesamte Ausgabedistribution verschieben, und dabei auch Kontamination durch Trainingsdaten kontrolliert wird. Zweitens wurden Shapley‑Werte exakt über strukturierte Prompt‑Felder berechnet, um den Einfluss einzelner Anker auf die Log‑Wahrscheinlichkeiten zu quantifizieren. Drittens entstand ein einheitlicher „Anchoring Bias Sensitivity Score“, der sowohl das Verhalten als auch die Attributionen über sechs Open‑Source‑Modelle hinweg zusammenführt.

Die Ergebnisse sind eindeutig: In Modellen wie Gemma‑2B, Phi‑2 und Llama‑2‑7B zeigt sich ein robuster Anker‑Bias, wobei die Attributionen darauf hinweisen, dass die Anker die Re‑Gewichtung der Wahrscheinlichkeiten steuern. Bei kleineren Modellen – etwa GPT‑2, Falcon‑RW‑1B und GPT‑Neo‑125M – ist die Sensitivität stärker variabel, was nahelegt, dass die Modellgröße die Anfälligkeit für Anker beeinflusst. Gleichzeitig variiert die Attribution je nach Prompt‑Design, was die Fragilität unterstreicht, LLMs als menschliche Entscheidungsalternativen zu betrachten.

Diese Erkenntnisse demonstrieren, dass Anker‑Bias in Sprachmodellen robust, messbar und interpretierbar ist. Gleichzeitig weisen sie auf potenzielle Risiken in Anwendungsbereichen hin, in denen Entscheidungen von LLMs unterstützt werden. Die Arbeit schafft einen Brückenschlag zwischen Verhaltenswissenschaft, Sicherheit von KI-Systemen und deren Interpretierbarkeit, und liefert damit wertvolle Grundlagen für die verantwortungsvolle Nutzung von Sprachmodellen.

Ähnliche Artikel