DreamGym: KI-Agenten lernen schneller durch synthetische Erfahrungen
Reinforcement Learning (RL) hat das Potenzial, große Sprachmodelle zu autonomen Agenten zu machen, doch die Praxis bleibt wegen teurer Rollouts, begrenzter Aufgabenvielfalt, unzuverlässiger Belohnungen und komplexer Inf…