Neuer RL-Ansatz verbessert mehrfache Tool-Integration bei LLMs um 3 %
Die Entwicklung von großen Sprachmodellen (LLMs), die mehrere Interaktionen mit externen Tools durchführen können, bleibt eine große Herausforderung. Traditionelle Verstärkungslernverfahren wie Group Relative Policy Opt…