LLMs verstärken Entscheidungsfehler: Studie zeigt Bias im Newsvendor-Problem
In der heutigen Geschäftswelt werden große Sprachmodelle (LLMs) immer häufiger in Entscheidungsprozesse eingebunden. Doch ihre Fähigkeit, menschliche kognitive Verzerrungen zu replizieren und sogar zu verstärken, birgt ein bislang wenig verstandenes Risiko – besonders in hochriskanten Bereichen wie dem Supply‑Chain‑Management.
Eine neue Untersuchung hat die Entscheidungsmuster von führenden LLMs anhand des klassischen Newsvendor‑Problems in einer dynamischen Umgebung analysiert. Durch mehrrunden‑Experimente mit GPT‑4, GPT‑4o und LLaMA‑8B wurden fünf etablierte Entscheidungsfehler getestet. Die Ergebnisse zeigen, dass die Modelle konsequent die bekannte „Too Low/Too High“-Bestellverzerrung reproduzieren und andere Tendenzen, wie das Nachahmen von Nachfrageänderungen, deutlich verstärken.
Besonders auffällig ist das „Paradoxon der Intelligenz“: Das fortschrittlichere GPT‑4 weist die größte Irrationalität auf, weil es zu stark überdenkt, während das auf Effizienz optimierte GPT‑4o nahezu optimal arbeitet. Diese Verzerrungen bestehen sogar, wenn optimale Formeln bereitgestellt werden, was darauf hindeutet, dass sie aus architektonischen Beschränkungen resultieren und nicht aus Wissenslücken.
Für Manager bedeutet dies, dass die Auswahl des Modells stark vom konkreten Aufgabenbereich abhängt. Effizienzoptimierte Modelle können in bestimmten Optimierungsaufgaben besser abschneiden als komplexere Varianten. Gleichzeitig verdeutlicht die verstärkte Verzerrung durch LLMs die dringende Notwendigkeit robuster menschlicher Kontrolle und sorgfältiger Modellwahl, um Fehlentscheidungen zu vermeiden.