LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt. Mit insgesamt 100 Billionen Parametern setzt das Modell einen neuen Maßstab für die großtechnische Bereitstellung von Sprachmodellen und demonstriert, dass die Umwandlung von autoregressiven (AR) Modellen in Diffusions‑Modelle effizient und skalierbar sein kann.

Im Gegensatz zu herkömmlichen Trainingsansätzen, die von Grund auf neu beginnen, nutzt LLaDA 2.0 ein dreiphasiges Block‑Level‑WSD‑Training. Zunächst wird die Blockgröße schrittweise erhöht (Warm‑Up), anschließend erfolgt die Diffusion über die gesamte Sequenz (Stable) und schließlich wird die Blockgröße wieder reduziert (Decay). Dieser Ansatz ermöglicht eine gezielte Wissensweitergabe, progressive Anpassung und eine effizienzorientierte Architektur.

Nach dem Training werden die Modelle mit SFT (Supervised Fine‑Tuning) und DPO (Direct Preference Optimization) abgestimmt, was zu zwei praktischen Varianten führt: LLaDA 2.0‑mini (16 Billionen Parameter) und LLaDA 2.0‑flash (100 Billionen Parameter). Beide Varianten sind als Mixture‑of‑Experts (MoE) optimiert und für den Einsatz in realen Anwendungen konzipiert. Die Modelle wurden vollständig Open‑Source veröffentlicht.

Durch die Beibehaltung der Vorteile der parallelen Dekodierung liefern LLaDA 2.0‑Mini und LLaDA 2.0‑Flash herausragende Leistung und Effizienz auf Frontier‑Scale. Die Veröffentlichung markiert einen wichtigen Schritt in Richtung praktikabler, hochleistungsfähiger Sprachmodelle, die sowohl skalierbar als auch ressourcenschonend sind.

Ähnliche Artikel