Neuer RL-Ansatz verbessert mehrfache Tool-Integration bei LLMs um 3 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Entwicklung von großen Sprachmodellen (LLMs), die mehrere Interaktionen mit externen Tools durchführen können, bleibt eine große Herausforderung. Traditionelle Verstärkungslernverfahren wie Group Relative Policy Optimization (GRPO) nutzen Trajektorien-basiertes Feedback, das bei komplexen, mehrstufigen Aufgaben zu wenig Lernimpulse liefert und das Training oft zum Stillstand bringt.

Um dieses Problem zu lösen, wurde Group Turn Policy Optimization (GTPO) vorgestellt – ein speziell auf multi‑turn Tool‑Integrated Reasoning (TIR) zugeschnittenes RL‑Verfahren. GTPO bringt drei wesentliche Neuerungen mit sich:

  • Turn‑Level‑Belohnungen: Jede einzelne Interaktion erhält ein eigenes Feedback, wodurch das Modell präziser lernen kann.
  • Return‑basierte Vorteilsschätzung: Durch die Berechnung normalisierter, diskontierter Rückgaben als Vorteile wird die Lernsignalstärke weiter erhöht.
  • Selbstüberwachtes Reward‑Shaping: Das Verfahren nutzt selbstgenerierte Code‑Ausgaben, um die seltenen binären Erfolgssignale zu dichten und damit das Training zu beschleunigen.

In umfangreichen Tests über verschiedene Rechenaufgaben hinweg übertrifft GTPO GRPO durchschnittlich um 3 %. Diese Fortschritte markieren einen wichtigen Schritt, um LLMs für anspruchsvolle mathematische und logische Aufgaben in der Praxis einzusetzen.

Ähnliche Artikel