SparseRM: Leichtgewichtiges Präferenzmodell mit Sparse Autoencoder
Ein neues arXiv-Papier mit der ID 2511.07896v1 präsentiert SparseRM, ein schlankes Modell zur Bewertung menschlicher Präferenzen bei großen Sprachmodellen (LLMs). Reward Models (RMs) sind entscheidend für die Nachschulung von LLMs, doch ihre Entwicklung erfordert oft enorme Mengen an annotierten Daten und kostenintensive Feinabstimmungen.
SparseRM löst dieses Problem, indem es einen Sparse Autoencoder (SAE) nutzt, um aus den internen Repräsentationen der LLMs nur die für Präferenzen relevanten Informationen zu extrahieren. Der SAE zerlegt die Modellrepräsentationen in leicht interpretierbare Richtungen, die spezifische Präferenzmerkmale erfassen. Anschließend werden die Repräsentationen auf diese Richtungen projiziert, um Ausrichtungsscores zu berechnen, die die Stärke jedes Merkmals quantifizieren.
Ein einfacher Reward‑Head fasst diese Scores zu einem Präferenzwert zusammen. In Experimenten auf drei unterschiedlichen Präferenz‑Modellierungsaufgaben übertrifft SparseRM die meisten etablierten RMs, während es weniger als 1 % trainierbarer Parameter verwendet. Zudem lässt sich SparseRM nahtlos in bestehende Alignment‑Pipelines integrieren, was seine Rolle als effiziente Lösung für die Modellanpassung unter Ressourcenbeschränkungen unterstreicht.