GRADE: Backpropagation statt Policy Gradients für LLM‑Ausrichtung
In der Welt der großen Sprachmodelle (LLMs) dominiert das Reinforcement Learning aus menschlichem Feedback (RLHF) als bevorzugte Methode, um Modelle an menschliche Präferenzen anzupassen. Doch die gängigen Policy‑Gradie…