RAPO: Erkundung von LLM-Agenten durch Retrieval‑gestützte Optimierung
Agentic Reinforcement Learning (Agentic RL) hat das Potenzial, große Sprachmodelle (LLM) zu leistungsstarken Agenten zu machen, die komplexe Aufgaben in mehreren Schritten und mit integrierten Werkzeugen lösen können.
Ein zentrales Problem bestehender Agentic‑RL‑Methoden ist die ausschließliche Nutzung eines reinen On‑Policy‑Paradigmas für die Exploration. Dadurch beschränkt sich die Erkundung auf die vom Agent selbst erzeugten Ausgaben, was die Entdeckung neuer Denkansätze und damit die weitere Verbesserung verhindert.
Neuere Ansätze fügen zwar off‑Policy‑Signale hinzu, nutzen jedoch meist komplette off‑Policy‑Trajektorien für die Policy‑Schätzung. Dabei wird die Notwendigkeit feinkörniger, schrittweiser Explorationsdynamiken innerhalb der Agenten‑Rollouts vernachlässigt.
In diesem Beitrag wird die Methode Retrieval‑Augmented Policy Optimization (RAPO) vorgestellt, die Retrieval explizit einsetzt, um die Exploration während des Trainings zu erweitern.
RAPO gliedert den Trainingsprozess in zwei Phasen: (i) Hybrid‑Policy Agentic Rollout und (ii) Retrieval‑aware Policy Optimization.
Der Hybrid‑Policy Agentic Rollout erlaubt es den Agenten, kontinuierlich über abgerufene off‑Policy‑Schritt‑Spuren zu reflektieren. Dadurch wird das Reaktionsfeld des Agenten dynamisch erweitert und eine breitere Exploration, die auf externen Verhaltensmustern basiert, ermöglicht.
Im Anschluss wird die Retrieval‑aware Policy Optimization eingesetzt, die den Policy‑Gradienten unter Berücksichtigung der abgerufenen Informationen kalibriert und so die Lernschritte gezielt anpasst.
RAPO bietet damit eine systematische Möglichkeit, die Exploration von LLM‑Agenten zu diversifizieren und die Leistungsfähigkeit in komplexen Aufgaben zu steigern.