RLHF‑Alignment bleibt flach: Gradient‑Analyse enthüllt die Ursache

Eine neue Studie auf arXiv zeigt, warum die Sicherheit von Sprachmodellen bei Reinforcement‑Learning‑from‑Human‑Feedback (RLHF) nur oberflächlich wirkt. Die Autoren beweisen, dass Gradienten‑basierte Anpassungen ausschließlich an den Stellen wirken, an denen die Gefahr bereits entschieden ist, und danach keine Rückmeldung mehr erhalten.

Durch eine Martingale‑Zerlegung des sequentiellen Schadens wird der Gradient an Position t exakt als Kovarianz zwischen dem bedingten erwarteten Schaden und der Score‑Funktion dargestellt. Das bedeutet, dass Tokens, die über die „Schadenshorizont“ hinausgehen – also bereits festlegen, ob das Ergebnis gefährlich ist – während des Trainings keinen Gradienten mehr bekommen. Diese Theorie erklärt, warum die KL‑Divergenz zwischen angepassten und Basismodellen sich auf die ersten Tokens konzentriert.

Die Autoren führen das Konzept der „Schadensinformation“ \(I_t\) ein, das misst, wie stark jede Position den Gesamtschaden beeinflusst. Sie zeigen, dass die Gleichgewicht‑KL‑Divergenz genau dieser Information folgt. Auf Basis dieser Erkenntnisse entwickeln sie ein neues Ziel, das RückgewinnungsStrafen nutzt und Gradienten an allen Positionen erzeugt. Damit liefert die Arbeit eine theoretische Grundlage für die empirisch erfolgreichen Daten‑Augmentierungsmethoden, die bisher nur beobachtet, aber nicht erklärt wurden.

Ähnliche Artikel

🍪 Cookie-Einstellungen