KI News: Kurz und klar.

Anmelden

d2: Improved Techniques for Training Reasoning Diffusion Language Models

arXiv – cs.LG • 29.09.2025 05:00 • Original

#Diffusions-Sprachmodelle #Reinforcement-Learning #Policy-Gradient #Maskierte DLMs #Wahrscheinlichkeitsabschätzung #Logische Problemlösung #Mathematische Benchmark

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 02.02.2026 05:00

SCOPE: Dynamische Modell‑Routing‑Plattform steigert Effizienz und Genauigkeit

arXiv – cs.AI • 26.01.2026 05:00

LongCat-Flash-Thinking-2601: Open-Source-Modell setzt neue Agentik-Standards

arXiv – cs.AI • 22.01.2026 05:00

Deep RL optimiert Fahrzeugrouten mit begrenzter Zeit

arXiv – cs.LG • 11.12.2025 05:00

Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen

arXiv – cs.LG • 05.12.2025 05:00

NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten

arXiv – cs.LG • 04.12.2025 05:00

Neue Policy‑Gradient‑Algorithmen für POMDPs mit Speicher