From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
SPIN: Beschleunigt Offline RL in großen diskreten Aktionsräumen
MarkTechPost
•
Nanbeige4-3B: 3B-Modell erreicht 30B-Klassenerkenntnisse durch optimierte Pipeline
arXiv – cs.LG
•
Agent lernt 200 Aufgaben gleichzeitig – Fortschritt in kontinuierlicher Kontrolle
arXiv – cs.AI
•
ORIGAMISPACE: Neues Benchmark für multimodale LLMs im räumlichen Mehrschritt‑Denken
arXiv – cs.LG
•
MARVAL beschleunigt Masked Auto-Regressive Diffusion: Schnelle Inferenz für RL
arXiv – cs.AI
•
STaR: LLMs mit langsamer Denkweise verbessern Tabellenanalyse