Neues Framework für Reward Modeling: Ordinale Likert-Skala als Grundlage
In der Welt der großen Sprachmodelle ist das Reward‑Modeling entscheidend, um die Systeme an menschliche Vorlieben anzupassen. Bisher fehlte jedoch ein solides mathematisches Fundament, um ordinale Präferenzdaten – etwa Bewertungen auf einer Likert‑Skala von „deutlich besser“ bis „kaum besser“ – sinnvoll zu nutzen. Typische Ansätze greifen auf willkürliche Heuristiken wie feste Margen oder Skalierungsfaktoren zurück, ohne die zugrunde liegende Datenstruktur zu berücksichtigen.
Die neue Arbeit präsentiert ein theoretisch fundiertes Konzept, das Reward‑Modeling als diskrete Ordinalregression formuliert. Aus dieser Sicht werden zwei Verlustfunktionen abgeleitet: ein negativer Log‑Likelihood‑Loss und ein All‑Threshold‑Loss. Beide Lernmethoden bestimmen automatisch Schwellenparameter, die die natürliche Rangordnung der Präferenzen einfangen – ganz ohne manuell festgelegte Margen.
Durch die Integration dieser probabilistischen Rahmenbedingungen können die Modelle die Likert‑Skala direkt aus den Daten lernen. Experimentelle Ergebnisse auf mehreren Benchmark‑Sätzen zeigen, dass dieser Ansatz in Bereichen wie Chat‑Interaktion, logischem Denken und Sicherheitsprüfungen gleichwertig oder sogar überlegen gegenüber bestehenden heuristischen Methoden abschneidet.
Damit liefert die Studie das erste prinzipielle mathematische Gerüst, um ordinale Präferenzdaten in Reward‑Modelle einzubinden und damit die Ausrichtung großer Sprachmodelle an menschlichen Werten noch präziser zu gestalten.