Forschung arXiv – cs.AI

TSR: Trajektorien‑Suche verbessert Multi‑Turn RL für LLM‑Agenten

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrtägige Interaktionen mittels Reinforcement Learning…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrt…
  • Dieses Vorgehen birgt jedoch Herausforderungen – Belohnungen sind häufig spärlich oder verzögert, und die Umgebungen können stochastisch sein.
  • In solchen Szenarien kann die herkömmliche Trajektorien‑Sampling‑Methode die Ausnutzung von Wissen behindern und zu Modenkollaps führen.

Die neuesten Fortschritte bei großen Sprachmodellen (LLMs) führen zu einem Paradigmenwechsel: Statt statischer Trainingsdaten werden Agenten nun durch wiederholte, mehrtägige Interaktionen mittels Reinforcement Learning (RL) trainiert. Dieses Vorgehen birgt jedoch Herausforderungen – Belohnungen sind häufig spärlich oder verzögert, und die Umgebungen können stochastisch sein. In solchen Szenarien kann die herkömmliche Trajektorien‑Sampling‑Methode die Ausnutzung von Wissen behindern und zu Modenkollaps führen.

Um diese Probleme zu lösen, stellt das neue Verfahren TSR (Trajectory‑Search Rollouts) vor. TSR nutzt eine leichtgewichtige, baumartige Suche während der Trainingsphase, um qualitativ hochwertige Trajektorien zu erzeugen. Dabei werden bei jedem Schritt die vielversprechendsten Aktionen anhand von aufgabenbezogenem Feedback ausgewählt. Das Ergebnis ist eine verbesserte Rollout‑Qualität und stabileres Lernen, ohne die zugrunde liegende Optimierungsaufgabe zu verändern – TSR ist damit optimierer‑agnostisch.

In praktischen Tests wurden verschiedene Varianten von TSR – best‑of‑N, Beam‑Suche und flache Lookahead‑Suche – mit den gängigen RL‑Algorithmen PPO und GRPO kombiniert. Auf Aufgaben wie Sokoban, FrozenLake und WebShop konnten bis zu 15 % Leistungszuwächse erzielt und die Lernstabilität deutlich erhöht werden, wobei die zusätzliche Rechenlast nur einmalig während des Trainings entsteht. Durch die Verschiebung der Suche vom Inferenz‑ zum Trainings‑Rollout bietet TSR einen einfachen, generellen Ansatz, um Multi‑Turn‑Agenten stärker zu trainieren und ergänzt bestehende Frameworks sowie Ablehnungs‑Sampling‑Methoden.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.