Neues Verfahren NormBT reduziert Distanzbias im BT‑Loss für Reward‑Modelle
In der Welt der großen Sprachmodelle (LLMs) spielt die Ausrichtung von Reward‑Modellen eine entscheidende Rolle, insbesondere im Rahmen von Reinforcement Learning from Human Feedback (RLHF). Das Standardziel für das Tra…
- In der Welt der großen Sprachmodelle (LLMs) spielt die Ausrichtung von Reward‑Modellen eine entscheidende Rolle, insbesondere im Rahmen von Reinforcement Learning from H…
- Das Standardziel für das Training dieser Modelle ist der Bradley‑Terry (BT) Loss, der aus Paaren von ausgewählten und abgelehnten Antworten lernt.
- Die neueste Studie untersucht die Gradienten jedes einzelnen Samples des BT‑Losses und zeigt, dass deren Norm von zwei Faktoren abhängt: Erstens der Unterschied in den v…
In der Welt der großen Sprachmodelle (LLMs) spielt die Ausrichtung von Reward‑Modellen eine entscheidende Rolle, insbesondere im Rahmen von Reinforcement Learning from Human Feedback (RLHF). Das Standardziel für das Training dieser Modelle ist der Bradley‑Terry (BT) Loss, der aus Paaren von ausgewählten und abgelehnten Antworten lernt.
Die neueste Studie untersucht die Gradienten jedes einzelnen Samples des BT‑Losses und zeigt, dass deren Norm von zwei Faktoren abhängt: Erstens der Unterschied in den vorhergesagten Belohnungen zwischen dem gewählten und dem abgelehnten Antwort, was den eigentlichen Lernsignal darstellt, und zweitens dem Abstand der Repräsentationen im Ausgaberaum der letzten Schicht. Während der erste Term das gewünschte Signal liefert, kann der zweite Term das Update stark verzerren. Paare mit kleinem Repräsentationsabstand erhalten selbst bei falscher Rangfolge schwache Updates, während Paare mit großem Abstand unverhältnismäßig starke Updates erhalten. Dadurch dominieren die Gradienten großer Abstände und verdrängen die wichtigen, feinen Unterscheidungen kleiner Abstände.
Um dieses Problem zu beheben, wird NormBT vorgestellt – ein adaptives, paarweises Normalisierungsschema, das die Effekte des Repräsentationsabstands ausgleicht und die Lernsignale stärker auf den Vorhersagefehler fokussiert. NormBT ist leichtgewichtig, kann nahtlos in bestehende BT‑Loss‑Implementierungen integriert werden und verursacht nur einen vernachlässigbaren Overhead. In umfangreichen Tests mit verschiedenen LLM‑Backbones und Datensätzen zeigt NormBT konsistente Verbesserungen der Reward‑Modellleistung, darunter ein bemerkenswerter Gewinn von über 5 % in der Reasoning‑Kategorie des RewardBench‑Benchmarks.
Welche Linse du auf diese Meldung legen solltest
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst auf Modellqualitaet, Kosten pro Nutzung und darauf, ob echte Produktverbesserungen oder nur Benchmarks kommuniziert werden.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.