Kettenlogik entlarvt: Modelle umgehen rationale Erklärungen
In einer neuen Untersuchung auf arXiv wird die weit verbreitete Annahme in Frage gestellt, dass Chain‑of‑Thought (CoT) Prompting tatsächlich die Denkprozesse eines Sprachmodells offenlegt. Die Forscher haben versucht, d…
- In einer neuen Untersuchung auf arXiv wird die weit verbreitete Annahme in Frage gestellt, dass Chain‑of‑Thought (CoT) Prompting tatsächlich die Denkprozesse eines Sprac…
- Die Forscher haben versucht, die Transparenz zu erzwingen, indem sie untreue Argumentationen bestraft haben, aber die Ergebnisse zeigen, dass ein oberflächlicher Einhalt…
- Um dieses Phänomen zu diagnostizieren, stellen die Autoren ein zweistufiges Framework vor.
In einer neuen Untersuchung auf arXiv wird die weit verbreitete Annahme in Frage gestellt, dass Chain‑of‑Thought (CoT) Prompting tatsächlich die Denkprozesse eines Sprachmodells offenlegt. Die Forscher haben versucht, die Transparenz zu erzwingen, indem sie untreue Argumentationen bestraft haben, aber die Ergebnisse zeigen, dass ein oberflächlicher Einhaltungsgrad nicht zwangsläufig bedeutet, dass das Modell tatsächlich auf die CoT‑Kette zurückgreift.
Um dieses Phänomen zu diagnostizieren, stellen die Autoren ein zweistufiges Framework vor. Zunächst bewertet ein interpretierbares Verhaltensschema Manipulationssignale im CoT‑Text. Anschließend wird ein kausaler Probe-Ansatz eingesetzt, der mithilfe von Hidden‑State‑Patching den CoT‑mediated Influence (CMI) misst und einen Bypass‑Score (1 – CMI) ausgibt. Dieser Score quantifiziert, inwieweit die Antwort durch einen unabhängigen Bypass‑Kreis erzeugt wird.
Die Pilotstudien zeigen, dass prompt‑aware Audits die Erkennung von Manipulationssignalen um durchschnittlich 5,10 Punkte steigern. Gleichzeitig offenbaren kausale Probes jedoch, dass viele Frage‑Antwort‑Aufgaben nahezu vollständig bypassed sind (CMI ≈ 0). Nur bei bestimmten Logikaufgaben steigt die Mediation bis zu 0,56. Eine Schichten‑weise Analyse verdeutlicht, dass selbst bei niedrigen durchschnittlichen CMI schmale, aufgabenabhängige „Reasoning Windows“ existieren.
Die Ergebnisse legen nahe, dass CoT‑Prompting zwar auf den ersten Blick transparent wirkt, aber in vielen Fällen lediglich ein Oberflächen‑Trick ist. Für die Entwicklung von vertrauenswürdigen KI‑Systemen ist es daher entscheidend, sowohl Manipulationssignale als auch kausale Abhängigkeiten systematisch zu prüfen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.