Forschung arXiv – cs.LG

LLaDA 2.0: Diffusions‑Sprachmodelle mit 100 Billionen Parametern

LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt. Mit insgesamt 100 Billionen Parametern setzt das Modell einen neuen Maßstab für die großtec…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt.
  • Mit insgesamt 100 Billionen Parametern setzt das Modell einen neuen Maßstab für die großtechnische Bereitstellung von Sprachmodellen und demonstriert, dass die Umwandlun…
  • Im Gegensatz zu herkömmlichen Trainingsansätzen, die von Grund auf neu beginnen, nutzt LLaDA 2.0 ein dreiphasiges Block‑Level‑WSD‑Training.

LLaDA 2.0, die neueste Generation diskreter Diffusions‑Large‑Language‑Models (dLLM), wurde auf der Plattform arXiv vorgestellt. Mit insgesamt 100 Billionen Parametern setzt das Modell einen neuen Maßstab für die großtechnische Bereitstellung von Sprachmodellen und demonstriert, dass die Umwandlung von autoregressiven (AR) Modellen in Diffusions‑Modelle effizient und skalierbar sein kann.

Im Gegensatz zu herkömmlichen Trainingsansätzen, die von Grund auf neu beginnen, nutzt LLaDA 2.0 ein dreiphasiges Block‑Level‑WSD‑Training. Zunächst wird die Blockgröße schrittweise erhöht (Warm‑Up), anschließend erfolgt die Diffusion über die gesamte Sequenz (Stable) und schließlich wird die Blockgröße wieder reduziert (Decay). Dieser Ansatz ermöglicht eine gezielte Wissensweitergabe, progressive Anpassung und eine effizienzorientierte Architektur.

Nach dem Training werden die Modelle mit SFT (Supervised Fine‑Tuning) und DPO (Direct Preference Optimization) abgestimmt, was zu zwei praktischen Varianten führt: LLaDA 2.0‑mini (16 Billionen Parameter) und LLaDA 2.0‑flash (100 Billionen Parameter). Beide Varianten sind als Mixture‑of‑Experts (MoE) optimiert und für den Einsatz in realen Anwendungen konzipiert. Die Modelle wurden vollständig Open‑Source veröffentlicht.

Durch die Beibehaltung der Vorteile der parallelen Dekodierung liefern LLaDA 2.0‑Mini und LLaDA 2.0‑Flash herausragende Leistung und Effizienz auf Frontier‑Scale. Die Veröffentlichung markiert einen wichtigen Schritt in Richtung praktikabler, hochleistungsfähiger Sprachmodelle, die sowohl skalierbar als auch ressourcenschonend sind.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

LLaDA 2.0
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Diffusion Large Language Model
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Block-Level WSD Training
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen