Forschung arXiv – cs.LG

Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall

Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren. In der Praxis zeigen MoE-Transformer jedoch immer noch starkes…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren.
  • In der Praxis zeigen MoE-Transformer jedoch immer noch starkes Vergessen, selbst wenn die Experten gleichmäßig genutzt werden.
  • Die Ursache liegt laut der neuen Studie in einem „Pre‑Routing‑Bottleneck“.

Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren. In der Praxis zeigen MoE-Transformer jedoch immer noch starkes Vergessen, selbst wenn die Experten gleichmäßig genutzt werden.

Die Ursache liegt laut der neuen Studie in einem „Pre‑Routing‑Bottleneck“. Die Multi‑Head‑Attention‑Schicht verbindet die Signale aller Köpfe zu einer einzigen Eingabe für den Router. Dadurch muss das Routing auf zusammenhängende Feature‑Kombinationen reagieren, statt auf die einzelnen Kopfkanäle. Diese Kombinationen tragen unterschiedliche semantische und strukturelle Faktoren, die ungleichmäßig von den Köpfen unterstützt werden. Das führt zu schlecht ausgerichteten Gradienten und lässt viele verschiedene Feature‑Kombinationen denselben Routenpfad teilen.

Die Autoren quantifizieren diesen Kollisionseffekt mit der route‑weisen effektiven Kompositionszahl Neff. Ein höherer Neff korreliert mit größeren Verluststeigerungen bei alten Aufgaben nach kontinuierlichem Training. Auf Basis dieser Erkenntnisse stellen sie MH‑MoE vor, bei dem das Routing auf Kopf‑Ebene über Unterrepräsentationen erfolgt. Dadurch wird die Granularität erhöht und die Kollisionsrate reduziert.

In Experimenten auf dem TRACE‑Benchmark mit Qwen3‑0.6B/8B zeigt MH‑MoE eine deutliche Verbesserung: Der Backward‑Transfer‑Wert (BWT) sinkt von 11,2 % (LoRAMoE) auf 4,5 %. Diese Ergebnisse deuten darauf hin, dass eine Kopf‑weise Routing‑Strategie das Vergessen in MoE‑Transformern signifikant verringern kann.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.