Neues Verfahren NormBT reduziert Distanzbias im BT‑Loss für Reward‑Modelle

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) spielt die Ausrichtung von Reward‑Modellen eine entscheidende Rolle, insbesondere im Rahmen von Reinforcement Learning from Human Feedback (RLHF). Das Standardziel für das Training dieser Modelle ist der Bradley‑Terry (BT) Loss, der aus Paaren von ausgewählten und abgelehnten Antworten lernt.

Die neueste Studie untersucht die Gradienten jedes einzelnen Samples des BT‑Losses und zeigt, dass deren Norm von zwei Faktoren abhängt: Erstens der Unterschied in den vorhergesagten Belohnungen zwischen dem gewählten und dem abgelehnten Antwort, was den eigentlichen Lernsignal darstellt, und zweitens dem Abstand der Repräsentationen im Ausgaberaum der letzten Schicht. Während der erste Term das gewünschte Signal liefert, kann der zweite Term das Update stark verzerren. Paare mit kleinem Repräsentationsabstand erhalten selbst bei falscher Rangfolge schwache Updates, während Paare mit großem Abstand unverhältnismäßig starke Updates erhalten. Dadurch dominieren die Gradienten großer Abstände und verdrängen die wichtigen, feinen Unterscheidungen kleiner Abstände.

Um dieses Problem zu beheben, wird NormBT vorgestellt – ein adaptives, paarweises Normalisierungsschema, das die Effekte des Repräsentationsabstands ausgleicht und die Lernsignale stärker auf den Vorhersagefehler fokussiert. NormBT ist leichtgewichtig, kann nahtlos in bestehende BT‑Loss‑Implementierungen integriert werden und verursacht nur einen vernachlässigbaren Overhead. In umfangreichen Tests mit verschiedenen LLM‑Backbones und Datensätzen zeigt NormBT konsistente Verbesserungen der Reward‑Modellleistung, darunter ein bemerkenswerter Gewinn von über 5 % in der Reasoning‑Kategorie des RewardBench‑Benchmarks.

Ähnliche Artikel