LLMs: Richtig aus falschen Gründen – neue Technik verhindert Rung‑Collapse
In einer kürzlich veröffentlichten Studie auf arXiv wird aufgezeigt, warum große Sprachmodelle oft „richtig“ antworten, obwohl sie dies aus völlig falschen Gründen tun. Durch die Nutzung von Kurzschlüssen, die bei einer…
- In einer kürzlich veröffentlichten Studie auf arXiv wird aufgezeigt, warum große Sprachmodelle oft „richtig“ antworten, obwohl sie dies aus völlig falschen Gründen tun.
- Durch die Nutzung von Kurzschlüssen, die bei einer Veränderung der Datenverteilung zusammenbrechen, erreichen diese Modelle beeindruckende Leistungen, verlieren jedoch d…
- Der Kern des Problems liegt in der Art des Trainings: Autoregressive Modelle erhalten keinen Gradienten, der zwischen der bedingten Wahrscheinlichkeit P(Y|X) und der kau…
In einer kürzlich veröffentlichten Studie auf arXiv wird aufgezeigt, warum große Sprachmodelle oft „richtig“ antworten, obwohl sie dies aus völlig falschen Gründen tun. Durch die Nutzung von Kurzschlüssen, die bei einer Veränderung der Datenverteilung zusammenbrechen, erreichen diese Modelle beeindruckende Leistungen, verlieren jedoch die Fähigkeit, kausale Zusammenhänge korrekt zu verstehen.
Der Kern des Problems liegt in der Art des Trainings: Autoregressive Modelle erhalten keinen Gradienten, der zwischen der bedingten Wahrscheinlichkeit P(Y|X) und der kausalen Intervention P(Y|do(X)) unterscheidet. Dieses Defizit führt zum sogenannten Rung‑Collapse, bei dem das Modell die wahre kausale Struktur nicht mehr erkennt. Wenn das Modell anschließend noch einmal anhand von Ergebnisdaten trainiert wird, verstärkt es die falschen Antworten und wird in fehlerhafte Denkweisen „eingebettet“, ein Phänomen, das als Aleatoric Entrenchment bezeichnet wird.
Um diesem Problem entgegenzuwirken, schlägt die Arbeit eine neue Methode namens Epistemic Regret Minimization (ERM) vor. ERM ist ein Ziel für die Überarbeitung von Überzeugungen, das Fehler in kausaler Logik unabhängig vom Erfolg bei der Aufgabenlösung bestraft. Die Autoren integrieren ERM in eine dreischichtige Architektur, die drei wesentliche Beiträge umfasst:
- Ein physikalisches Grundsatztheorem, das zeigt, dass Aktionen, die die Unabhängigkeit von Aktuatoren erfüllen, gültige do‑Operationen darstellen und damit die Brücke zwischen Aktionssprachen und do‑Kalkül schlägt.
- ERM als kausaler Überzeugungsrevisionsoperator, der die AGM‑Postulate erfüllt und so verhindert, dass das Modell in falsche Denkweisen verankert bleibt, selbst wenn es die Aufgabe korrekt löst.
- Eine Taxonomie von Fehlermodi, die wiederkehrende Fehler klassifiziert und domänenunabhängige Schutzmechanismen einführt, um die Übertragbarkeit auf verschiedene Anwendungsbereiche zu ermöglichen.
Die Autoren beweisen, dass ihre Methode asymptotisch die wahre interventionalle Verteilung wiederherstellen kann und liefern dabei endliche Stichprobenbeschränkungen. In umfangreichen Experimenten mit 1.360 kausalen Fallstudien über sechs hochmoderne LLMs bleibt der Rung‑Collapse auch bei Modellen mit verbessertem Denken bestehen – bei GPT‑5.2 beispielsweise noch 3,7 %. Gleichzeitig zeigen die Ergebnisse, dass die Steuerbarkeit der Modelle in umgekehrter Richtung reagiert, was weitere Forschungsfragen aufwirft.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.