Forschung arXiv – cs.AI

Reinforcement Learning für Tool‑Calling Agenten: Leistung um 11,5 pp gesteigert

Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um Tool‑Calling Agenten für realistische Kundendiens…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um…
  • Durch die Nutzung eines LLM‑basierten Benutzersimulators konnten sie die Herausforderungen von sparsamen Ergebnis‑Belohnungen und schwieriger Kreditzuweisung über mehrer…
  • Eine detaillierte Analyse der Trainings‑Rollouts zeigte, dass einfach gestaltete dichte Belohnungen pro Gesprächs­turn die Leistung um bis zu 14 Prozentpunkte senken, we…

Forscher haben erstmals die Kombination aus Multi‑Turn Group Relative Policy Optimization (MT‑GRPO) und Generalized Token‑level Policy Optimization (GTPO) eingesetzt, um Tool‑Calling Agenten für realistische Kundendienstaufgaben zu trainieren. Durch die Nutzung eines LLM‑basierten Benutzersimulators konnten sie die Herausforderungen von sparsamen Ergebnis‑Belohnungen und schwieriger Kreditzuweisung über mehrere Gesprächs­turns hinweg adressieren.

Eine detaillierte Analyse der Trainings‑Rollouts zeigte, dass einfach gestaltete dichte Belohnungen pro Gesprächs­turn die Leistung um bis zu 14 Prozentpunkte senken, weil die Belohnungs­discriminativität nicht mit der Vorteil‑Richtung übereinstimmt. Um dieses Problem zu lösen, entwickelte das Team die Iterative Reward Calibration, eine Methode, die per‑Turn‑Belohnungen anhand empirischer Diskriminanz‑Analysen der Rollout‑Daten gestaltet. Gleichzeitig eliminiert die hybride Vorteil‑Formulierung von GTPO die Missanpassung zwischen Belohnung und Vorteil.

Auf dem Tau‑Bench Airline Benchmark erzielte die neue Methode beeindruckende Verbesserungen: Qwen3.5‑4B stieg von 63,8 % auf 66,7 % (+2,9 pp) und Qwen3‑30B‑A3B von 58,0 % auf 69,5 % (+11,5 pp). Der 4‑B‑Modell übertraf GPT‑4.1 (49,4 %) und GPT‑4o (42,8 %) – obwohl er 50‑mal kleiner ist – und das 30,5‑B‑MoE‑Modell kam Claude Sonnet 4.5 (70,0 %) nahe. Diese Ergebnisse stellen die ersten veröffentlichten RL‑Trainingsdaten für Tau‑Bench dar.

Die Autoren stellen ihren Code, die Analyse zur Belohnungs­kalibrierung und die Trainings‑Rezepte öffentlich zur Verfügung, um die Forschung in diesem vielversprechenden Bereich weiter voranzutreiben.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

MT‑GRPO
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
GTPO
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Tool‑Calling Agent
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.