KI News: Kurz und klar.

Anmelden

Aligning Diffusion Language Models via Unpaired Preference Optimization

arXiv – cs.LG • 29.10.2025 04:00 • Original

#Diffusions-Sprachmodelle #ELBO-KTO #LLaDA-8B-Instruct #kto-mix-14k #UltraFeedback-Binary #unverpaarte Präferenzoptimierung

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 11.12.2025 05:00

Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen

arXiv – cs.LG • 27.11.2025 05:00

Von Bits zu Runden: Parallel-Decodierung mit Exploration für Diffusionsmodelle

arXiv – cs.LG • 29.09.2025 05:00

d2: Improved Techniques for Training Reasoning Diffusion Language Models