KI News: Kurz und klar.

Anmelden

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

arXiv – cs.LG • 14.08.2025 05:00 • Original

#Diffusion LLM #Discrete Diffusion Forcing #Block-wise Autoregressive Generation #KV Cache #Parallel Decoding #Asymmetric Distillation #Inference Speed

Anzeige

Ähnliche Artikel

arXiv – cs.LG • 22.12.2025 05:00

Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %

arXiv – cs.LG • 03.02.2026 05:00

Neue Technik: Backward-on-Entropy Steering optimiert Masked Diffusion Models

PyTorch – Blog • 05.11.2025 22:00

Hybrid Models as First-Class Citizens in vLLM

arXiv – cs.AI • 22.10.2025 05:00

Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model

arXiv – cs.LG • 06.10.2025 05:00

TokenFlow: Responsive LLM Text Streaming Serving under Request Burst via Preemptive Scheduling

arXiv – cs.LG • 15.09.2025 05:00

Inpainting-Guided Policy Optimization for Diffusion Large Language Models