Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Meta-Policy Reflexion: Reusable Reflective Memory and Rule Admissibility for Resource-Efficient LLM Agent
arXiv – cs.AI
•
Kompakte Modelle meistern Suchaufgaben: Orion zeigt, dass Lernen reicht
arXiv – cs.AI
•
Vertrauensbasierte Belohnungsmodellierung verbessert das logische Denken von LLMs
arXiv – cs.AI
•
GRAPH‑GRPO‑LEX: Automatisierte Vertragsanalyse mit Graphen & RL
arXiv – cs.AI
•
LLMs priorisieren Anweisungen hierarchisch – Sicherheit steigt
arXiv – cs.LG
•
Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch