LLMs zeigen Anpassung bei wechselnden Bedingungen – Reversal‑Learning‑Studie
In einer neuen Untersuchung wurden große Sprachmodelle (LLMs) als fortlaufende Entscheidungsagenten in einem zweipflichtigen, probabilistischen Reversal‑Learning‑Aufgabe getestet. Dabei konnten die Modelle ihre zuvor ge…
- In einer neuen Untersuchung wurden große Sprachmodelle (LLMs) als fortlaufende Entscheidungsagenten in einem zweipflichtigen, probabilistischen Reversal‑Learning‑Aufgabe…
- Dabei konnten die Modelle ihre zuvor gelernten Aktionswerte anpassen, sobald sich die Erfolgswahrscheinlichkeiten änderten.
- Die Studie nutzte drei latente Zustände und wechselte die Belohnungsstruktur entweder nach einem Leistungskriterium oder nach einer Timeout‑Grenze.
In einer neuen Untersuchung wurden große Sprachmodelle (LLMs) als fortlaufende Entscheidungsagenten in einem zweipflichtigen, probabilistischen Reversal‑Learning‑Aufgabe getestet. Dabei konnten die Modelle ihre zuvor gelernten Aktionswerte anpassen, sobald sich die Erfolgswahrscheinlichkeiten änderten. Die Studie nutzte drei latente Zustände und wechselte die Belohnungsstruktur entweder nach einem Leistungskriterium oder nach einer Timeout‑Grenze.
Die Forscher verglichen zwei Übergangsstrategien: einen deterministischen, festen Zyklus und einen stochastischen, zufälligen Zeitplan, der die Volatilität steigerte. Dabei wurden DeepSeek‑V3.2, Gemini‑3 und GPT‑5.2 gegen menschliche Daten als Referenz getestet. Alle Modelle zeigten ein nahezu perfektes „Win‑Stay“-Verhalten, während das „Lose‑Shift“ deutlich abgeschwächt war – ein Hinweis auf eine asymmetrische Nutzung von positiven versus negativen Signalen.
DeepSeek‑V3.2 zeigte besonders starkes Verharren nach Reversal‑Ereignissen und schwache Lernfähigkeit. Gemini‑3 und GPT‑5.2 passten schneller an, blieben jedoch weniger empfindlich gegenüber Verlusten als Menschen. Die zufälligen Übergänge verstärkten die Reversal‑Spezifische Persistenz bei allen Modellen, reduzierten jedoch nicht konsequent die Gesamtgewinne, was beweist, dass hohe Gesamterträge mit starrer Anpassung einhergehen können.
Hierarchische Reinforcement‑Learning‑Modelle deuten auf mehrere Mechanismen für die beobachtete Rigideität hin: schwache Verlustlernen, überhöhte Politikdeterminismus oder Wertpolarisation durch kontrafaktische Unterdrückung. Die Ergebnisse legen nahe, dass zukünftige Diagnostiktools und volatilitätsbewusste Modelle notwendig sind, um LLMs in nicht‑stationären Umgebungen besser zu bewerten.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.