Logikbasierte Alternative zu Reward-Modellen: S‑GRPO verbessert RLHF‑Alignment
Reinforcement Learning from Human Feedback (RLHF) ist entscheidend, um große Sprachmodelle an menschliche Werte anzupassen. Dabei hängt die Qualität des Reward‑Models stark von der Endleistung ab. In einer neuen Studie…