d2: Improved Techniques for Training Reasoning Diffusion Language Models
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen
arXiv – cs.LG
•
NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten
arXiv – cs.LG
•
Neue Policy‑Gradient‑Algorithmen für POMDPs mit Speicher
Ben Recht – Argmin
•
Policy-Gradient: Der neue Ansatz im Reinforcement Learning
arXiv – cs.LG
•
Von Bits zu Runden: Parallel-Decodierung mit Exploration für Diffusionsmodelle
arXiv – cs.LG
•
Verhaltensoptimierung senkt Varianz bei Off‑Policy RL