TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
LLMs zeigen keine Fortschritte bei Bayesian Optimization – Hybridansatz überzeugt
arXiv – cs.AI
•
AstroReason-Bench: Testet Agentenplanung in komplexen Raumfahrtproblemen
arXiv – cs.AI
•
MAXS: Meta-adaptive Exploration verbessert LLM-Agenten bei Tool-Integration
arXiv – cs.AI
•
XGrammar 2: Schnellere, dynamische Strukturgenerierung für Agenten-LLMs
arXiv – cs.LG
•
Turn-PPO: Neue Turn-Level-Strategie verbessert Multi-Turn RL in LLM-Agenten
arXiv – cs.AI
•
PAACE: Neues Framework für effiziente Kontextverwaltung bei LLM-Agenten