Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen
Reinforcement Learning (RL) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeiten erheblich steigern können. Bei offenen Aufgaben bleibt jedoch die Herausforderung bestehen, weil die Ergebnisse zu subjektiv sind…