Neuer RL-Ansatz verbessert mehrfache Tool-Integration bei LLMs um 3 %
Die Entwicklung von großen Sprachmodellen (LLMs), die mehrere Interaktionen mit externen Tools durchführen können, bleibt eine große Herausforderung. Traditionelle Verstärkungslernverfahren wie Group Relative Policy Optimization (GRPO) nutzen Trajektorien-basiertes Feedback, das bei komplexen, mehrstufigen Aufgaben zu wenig Lernimpulse liefert und das Training oft zum Stillstand bringt.