Forschung arXiv – cs.LG

UltraMemV2 erreicht mit 120 B Parametern die Leistung von 8‑Expert MoE-Modellen

Die neueste Version des Memory‑Layer‑Netzwerks, UltraMemV2, hat mit 120 B Gesamtparametern die gleiche Leistungsfähigkeit wie aktuelle 8‑Expert‑MoE‑Modelle erreicht – und das bei deutlich weniger Speicherzugriffen. Währ…

≈2 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die neueste Version des Memory‑Layer‑Netzwerks, UltraMemV2, hat mit 120 B Gesamtparametern die gleiche Leistungsfähigkeit wie aktuelle 8‑Expert‑MoE‑Modelle erreicht – un…
  • Während Mixture‑of‑Experts‑Modelle durch die Aktivierung nur kleiner Parameter‑Teile sehr effizient sind, entstehen bei der Inferenz hohe Kosten für den Speicherzugriff.
  • Memory‑Layer‑Architekturen bieten eine attraktive Alternative, weil sie nur wenige Speicherzugriffe benötigen.

Die neueste Version des Memory‑Layer‑Netzwerks, UltraMemV2, hat mit 120 B Gesamtparametern die gleiche Leistungsfähigkeit wie aktuelle 8‑Expert‑MoE‑Modelle erreicht – und das bei deutlich weniger Speicherzugriffen.

Während Mixture‑of‑Experts‑Modelle durch die Aktivierung nur kleiner Parameter‑Teile sehr effizient sind, entstehen bei der Inferenz hohe Kosten für den Speicherzugriff. Memory‑Layer‑Architekturen bieten eine attraktive Alternative, weil sie nur wenige Speicherzugriffe benötigen. Frühere Versuche wie UltraMem konnten jedoch die Leistung von 2‑Expert‑MoE‑Modellen nur knapp erreichen und blieben weit hinter den 8‑Expert‑Konfigurationen zurück.

UltraMemV2 schließt diese Lücke durch fünf zentrale Verbesserungen: (1) Einbindung von Memory‑Lagen in jeden Transformer‑Block, (2) Vereinfachung der Value‑Expansion mittels einer einzigen linearen Projektion, (3) Nutzung von FFN‑basiertem Value‑Processing aus PEER, (4) principled Parameter‑Initialisierung und (5) Ausbalancierung des Verhältnisses zwischen Memory‑ und FFN‑Berechnungen.

Durch umfangreiche Tests zeigt UltraMemV2, dass es bei gleicher Rechenleistung und gleicher Parameterzahl die Leistung von 8‑Expert‑MoE‑Modellen erreicht, dabei aber die Speicherzugriffe stark reduziert. Besonders bei speicherintensiven Aufgaben erzielt es deutliche Verbesserungen: +1,6 Punkte bei Langkontext‑Speicherung, +6,2 Punkte bei Mehr‑Runden‑Speicherung und +7,9 Punkte bei In‑Context‑Learning. Die Skalierung wurde bis zu 2,5 B aktivierten Parametern aus 120 B Gesamtparametern validiert, wobei die Aktivierungsdichte einen größeren Einfluss auf die Leistung hat als die Gesamtzahl der sparsamen Parameter.

Damit demonstriert UltraMemV2, dass Memory‑Layer‑Architekturen nun die Leistungsparität mit den führenden MoE‑Modellen erreichen können, während sie gleichzeitig die Speicherzugriffe minimieren.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

UltraMemV2
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Memory‑Layer
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
MoE
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen