From Correction to Mastery: Reinforced Distillation of Large Language Model Agents
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
MARVAL beschleunigt Masked Auto-Regressive Diffusion: Schnelle Inferenz für RL
arXiv – cs.AI
•
STaR: LLMs mit langsamer Denkweise verbessern Tabellenanalyse
arXiv – cs.AI
•
Klear-AgentForge: Agentische Intelligenz durch Post-Training-Skalierung
arXiv – cs.LG
•
RLVR: Grenzen der Generalisierung bei mathematischem Denken – Zwei Fallstudien
arXiv – cs.AI
•
Sherlock Your Queries: Learning to Ask the Right Questions for Dialogue-Based Retrieval
arXiv – cs.LG
•
EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning