Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Kollaboration von Sprachmodellen über versteckte Zustände
arXiv – cs.LG
•
Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL
arXiv – cs.AI
•
Jackpot: Budgeted Rejection Sampling stabilisiert RL für große Sprachmodelle
arXiv – cs.LG
•
TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen
arXiv – cs.AI
•
Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung
arXiv – cs.LG
•
NSF-Workshop: KI revolutioniert die elektronische Designautomatisierung