DreamGym: KI-Agenten lernen schneller durch synthetische Erfahrungen
Reinforcement Learning (RL) hat das Potenzial, große Sprachmodelle zu autonomen Agenten zu machen, doch die Praxis bleibt wegen teurer Rollouts, begrenzter Aufgabenvielfalt, unzuverlässiger Belohnungen und komplexer Infrastruktur schwierig. DreamGym löst diese Hindernisse, indem es ein einheitliches Framework bereitstellt, das skalierbare, synthetische Erfahrungen erzeugt und damit effektives Online‑RL‑Training ermöglicht.
Statt auf kostspielige reale Rollouts zu setzen, distilliert DreamGym die Dynamik einer Umgebung in ein reasoning‑basiertes Erfahrungsmodell. Dieses Modell erzeugt konsistente Zustandsübergänge und Feedbacksignale Schritt für Schritt, wodurch Agenten in großem Umfang simuliert werden können. Ein Replay‑Buffer, der mit Offline‑Daten aus der realen Welt initialisiert und kontinuierlich mit neuen Interaktionen angereichert wird, sorgt für stabile und hochwertige Übergänge. Zusätzlich generiert DreamGym adaptiv neue Aufgaben, die die aktuelle Agentenpolitik herausfordern und so ein effektives Online‑Curriculum‑Learning fördern.
Experimentelle Tests in einer Vielzahl von Umgebungen und mit unterschiedlichen Agenten‑Backbones zeigen, dass DreamGym die RL‑Trainingseffizienz sowohl in rein synthetischen Szenarien als auch bei Sim‑to‑Real‑Transfer deutlich steigert. Auf nicht‑RL‑bereiten Aufgaben wie WebArena übertrifft DreamGym alle Baselines um mehr als 30 %. In RL‑bereiten, aber kostenintensiven Settings liefert es ebenfalls signifikante Verbesserungen, was DreamGym zu einer vielversprechenden Lösung für die Skalierung von Agentenlernen macht.