TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten
Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrtägige Interaktionen mittels Reinforcement Learning…
- Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrt…
- Dieses Vorgehen birgt jedoch Herausforderungen – Belohnungen sind häufig spärlich oder verzögert, und die Umgebungen können stochastisch sein.
- In solchen Szenarien kann die herkömmliche Trajektorien‑Sampling‑Methode die Ausnutzung von Wissen behindern und zu Modenkollaps führen.
Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrtägige Interaktionen mittels Reinforcement Learning (RL) trainiert. Dieses Vorgehen birgt jedoch Herausforderungen – Belohnungen sind häufig spärlich oder verzögert, und die Umgebungen können stochastisch sein. In solchen Szenarien kann die herkömmliche Trajektorien‑Sampling‑Methode die Ausnutzung von Wissen behindern und zu Modenkollaps führen.
Um diese Probleme zu lösen, stellt das neue Verfahren TSR (Trajectory‑Search Rollouts) vor. TSR nutzt eine leichtgewichtige, baumartige Suche während der Trainingsphase, um qualitativ hochwertige Trajektorien zu erzeugen. Dabei werden bei jedem Schritt die vielversprechendsten Aktionen anhand von aufgabenbezogenem Feedback ausgewählt. Das Ergebnis ist eine verbesserte Rollout‑Qualität und stabileres Lernen, ohne die zugrunde liegende Optimierungsaufgabe zu verändern – TSR ist damit optimierer‑agnostisch.
In praktischen Tests wurden verschiedene Varianten von TSR – best‑of‑N, Beam‑Suche und flache Lookahead‑Suche – mit den gängigen RL‑Algorithmen PPO und GRPO kombiniert. Auf Aufgaben wie Sokoban, FrozenLake und WebShop konnten bis zu 15 % Leistungszuwächse erzielt und die Lernstabilität deutlich erhöht werden, wobei die zusätzliche Rechenlast nur einmalig während des Trainings entsteht. Durch die Verschiebung der Suche vom Inferenz‑ zum Trainings‑Rollout bietet TSR einen einfachen, generellen Ansatz, um Multi‑Turn‑Agenten stärker zu trainieren und ergänzt bestehende Frameworks sowie Ablehnungs‑Sampling‑Methoden.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.