DLLMQuant: Quantisierung von Diffusions-basierten Sprachmodellen neu definiert
Die neueste Veröffentlichung auf arXiv (2508.14090v1) präsentiert DLLMQuant, ein Post‑Training‑Quantisierungs‑Framework, das speziell für Diffusion‑basierte Large Language Models (DLLMs) entwickelt wurde. DLLMs haben sich als vielversprechende Alternative zu autoregressiven Modellen für die Textgenerierung etabliert, doch ihre enorme Modellgröße und der damit verbundene Rechenaufwand haben die breite Anwendung bislang behindert.
Traditionelle Quantisierungsmethoden wie AWQ führen bei DLLMs zu erheblichen Genauigkeitsverlusten – bis zu 16 % bei LLADA im W4A4‑Modus. Der Grund liegt in drei Kernproblemen: Erstens verändern sich durch dynamisches Maskieren und iterative Generierung die Token‑Verteilungen an jedem Decodierungs‑Schritt, sodass herkömmliche Kalibrierungen die tatsächliche Verteilung nicht erfassen. Zweitens akkumulieren Quantisierungsfehler mit jeder Iteration, wodurch die Leistung mit fortschreitender Decodierung abnimmt. Drittens bleiben unmaskierte Tokens stabil, während maskierte Tokens probabilistisch bleiben, was die Gesamtfeature‑Verteilung weiter verzerrt.
DLLMQuant begegnet diesen Herausforderungen mit drei innovativen Techniken. Temporal‑Mask Adaptive Sampling (TMAS) berücksichtigt sowohl Zeit‑ als auch Maskierungsfaktoren und ermöglicht eine präzise Kalibrierung über alle Decodierungs‑Schritte hinweg. Interaction‑Aware Activation Quantization (IA‑AQ) nutzt die Interaktionssignale der bidirektionalen Aufmerksamkeit, um die Quantisierung feiner abzustimmen. Die dritte Methode, die im Abstract nur angedeutet wird, ergänzt das Paket, indem sie die Fehlerakkumulation weiter reduziert und die Kompatibilität der Feature‑Verteilung verbessert.
Durch die Kombination dieser Ansätze demonstriert DLLMQuant eine signifikante Reduktion der Modellgröße und der Rechenkosten, ohne die Genauigkeit oder die Generalisierungsfähigkeit der DLLMs zu beeinträchtigen. Diese Fortschritte markieren einen wichtigen Schritt in Richtung praktikabler, hochleistungsfähiger Diffusions‑Sprachmodelle für den Einsatz in ressourcenbeschränkten Umgebungen.