Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen
Reinforcement Learning (RL) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeiten erheblich steigern können. Bei offenen Aufgaben bleibt jedoch die Herausforderung bestehen, weil die Ergebnisse zu subjektiv sind, um verifizierbare Belohnungen zu liefern, und weil RL aus menschlichem Feedback (RLHF) auf externe Signale angewiesen ist.