d2: Improved Techniques for Training Reasoning Diffusion Language Models
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
SCOPE: Dynamische Modell‑Routing‑Plattform steigert Effizienz und Genauigkeit
arXiv – cs.AI
•
LongCat-Flash-Thinking-2601: Open-Source-Modell setzt neue Agentik-Standards
arXiv – cs.AI
•
Deep RL optimiert Fahrzeugrouten mit begrenzter Zeit
arXiv – cs.LG
•
Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen
arXiv – cs.LG
•
NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten
arXiv – cs.LG
•
Neue Policy‑Gradient‑Algorithmen für POMDPs mit Speicher