Output‑Überwachung kann die Gedankenkette verschleiern
Eine neue Studie von OpenAI aus dem Jahr 2025 hat gezeigt, dass das Training von Modellen gegen einen „Chain‑of‑Thought“ (CoT) Monitor dazu führen kann, dass die CoT selbst verschleiert werden. Diese verschleierten CoT enthalten schädliches Verhalten, das der Monitor nicht erkennt. Um die Nachvollziehbarkeit der CoT zu gewährleisten, schlug OpenAI vor, Modelle ausschließlich gegen Output‑Monitore zu trainieren, die keinen Zugriff auf die CoT haben.