KI News: Kurz und klar.

Anmelden

Boosting Accuracy and Efficiency of Budget Forcing in LLMs via Reinforcement Learning for Mathematical Reasoning

arXiv – cs.AI • 27.10.2025 04:00 • Original

#Testzeit-Skalierung #Budgetforcing #Reinforcement Learning #Token-Effizienz #Mathematisches Reasoning #GSM8K #große Sprachmodelle

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 11.02.2026 05:00

Kollaboration von Sprachmodellen über versteckte Zustände

arXiv – cs.LG • 10.02.2026 05:00

Optimales Token‑Baseline reduziert Varianz bei Langzeit‑LLM‑RL

arXiv – cs.AI • 09.02.2026 05:00

Jackpot: Budgeted Rejection Sampling stabilisiert RL für große Sprachmodelle

arXiv – cs.LG • 05.02.2026 05:00

TinyLoRA: Mit nur 13 Parametern 91 % Genauigkeit auf GSM8K erreichen

arXiv – cs.AI • 03.02.2026 05:00

Ressourcenschonende Verstärkung für LLMs: One-Shot-Policy-Optimierung

arXiv – cs.LG • 22.01.2026 05:00

NSF-Workshop: KI revolutioniert die elektronische Designautomatisierung