Forschung
Selbstverbessernde RL: LLMs meistern offene Aufgaben ohne externe Belohnungen
Reinforcement Learning (RL) hat gezeigt, dass große Sprachmodelle (LLMs) ihre Fähigkeiten erheblich steigern können. Bei offenen Aufgaben b…
arXiv – cs.LG