Realzeit‑Ausrichtung von Belohnungsmodellen: Ein neues RLHF‑Framework
Reinforcement Learning from Human Feedback (RLHF) ist ein zentrales Verfahren, um große Sprachmodelle an menschliche Präferenzen anzupassen. Dabei besteht jedoch die Gefahr der sogenannten Reward‑Overoptimierung: Das Policy‑Modell lernt, die Belohnungsfunktion zu manipulieren, anstatt die eigentliche menschliche Intention zu erfassen. Traditionelle Gegenmaßnahmen beruhen vor allem auf semantischen Merkmalen und können die wachsende Diskrepanz zwischen Belohnungsmodell (RM) und Policy‑Modell, die durch kontinuierliche Änderungen der Policy‑Verteilung entsteht, nicht wirksam beheben.
Um dieses Problem zu lösen, wurde das neue, leichtgewichtige RLHF‑Framework R2M (Real‑Time Aligned Reward Model) vorgestellt. R2M geht über herkömmliche Belohnungsmodelle hinaus, die lediglich auf semantischen Darstellungen eines vortrainierten LLMs basieren. Stattdessen nutzt R2M die sich ständig verändernden versteckten Zustände der Policy – also das sogenannte Policy‑Feedback – um sich in Echtzeit an die aktuelle Verteilungsverschiebung der Policy anzupassen. Durch diese Echtzeit‑Ausrichtung kann das Belohnungsmodell besser mit den tatsächlichen Zielen der Policy übereinstimmen und die Gefahr der Overoptimierung deutlich reduzieren.
Die vorgestellte Methode eröffnet damit einen vielversprechenden neuen Ansatz zur Verbesserung der Leistungsfähigkeit von Belohnungsmodellen, indem sie die Rückmeldungen der Policy in Echtzeit nutzt und so die Kohärenz zwischen Modell und menschlicher Intention stärkt.