RLHF: Neue Theorie erklärt, warum große Sprachmodelle nach Feedback generalisieren
Reinforcement Learning from Human Feedback (RLHF) hat sich als führende Methode etabliert, um große Sprachmodelle (LLMs) an menschliche Intentionen anzupassen. Trotz ihrer beeindruckenden praktischen Erfolge fehlt bisla…