ToolGym: Open-World-Umgebung für skalierbare Agenten-Tests und Datenerstellung

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) stoßen Agenten, die Werkzeuge nutzen, immer wieder an Grenzen: offene Umgebungen, riesige Tool-Pools, komplexe Ziele und unvorhersehbare Zustände erschweren die Arbeit. Mit ToolGym wird das anders. Die neue Plattform bietet ein Open‑World‑Tool‑Umfeld, das 5 571 einheitlich formatierte Werkzeuge aus 204 gängigen Anwendungen integriert.

Ein zentraler Bestandteil ist der Task‑Creation‑Engine, der lange, mehrstufige Arbeitsabläufe mit mehreren Tools und wilden Einschränkungen automatisch generiert. Ergänzt wird das Ganze durch einen State‑Controller, der Unterbrechungen und Fehlfunktionen einführt, um die Robustheit der Agenten zu prüfen.

Auf dieser Basis wurde ein Agenten‑Framework entwickelt, das die Auswahl und Ausführung von Tools trennt. Durch die Aufteilung in einen Planner und einen Actor kann das Modell bewusst planen und anschließend Schritt für Schritt ausführen, wobei Fehler korrigiert werden können.

Die Bewertung der führenden LLMs zeigte, dass die Planungskompetenz und die Ausführungsfähigkeiten noch nicht vollständig aufeinander abgestimmt sind. Viele Modelle folgen den Einschränkungen schlecht, während DeepSeek‑v3.2 die größte Robustheit demonstrierte. Durch das Sammeln von 1 170 Trajektorien aus ToolGym konnten die Modelle mit 119 000 Beispielen feinjustiert werden, was zu einer deutlich besseren Leistung im Vergleich zu bestehenden Baselines führte.

ToolGym bietet damit nicht nur ein realistisches Benchmark‑Umfeld, sondern auch einen leistungsstarken Daten‑Generator für die Entwicklung von Werkzeug‑Agenten. Der Code und die Daten werden öffentlich zugänglich gemacht, sodass die Forschungsgemeinschaft von dieser neuen Ressource profitieren kann.

Ähnliche Artikel