Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall
Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren. In der Praxis zeigen MoE-Transformer jedoch immer noch starkes…
- Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren.
- In der Praxis zeigen MoE-Transformer jedoch immer noch starkes Vergessen, selbst wenn die Experten gleichmäßig genutzt werden.
- Die Ursache liegt laut der neuen Studie in einem „Pre‑Routing‑Bottleneck“.
Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interferenz reduzieren. In der Praxis zeigen MoE-Transformer jedoch immer noch starkes Vergessen, selbst wenn die Experten gleichmäßig genutzt werden.
Die Ursache liegt laut der neuen Studie in einem „Pre‑Routing‑Bottleneck“. Die Multi‑Head‑Attention‑Schicht verbindet die Signale aller Köpfe zu einer einzigen Eingabe für den Router. Dadurch muss das Routing auf zusammenhängende Feature‑Kombinationen reagieren, statt auf die einzelnen Kopfkanäle. Diese Kombinationen tragen unterschiedliche semantische und strukturelle Faktoren, die ungleichmäßig von den Köpfen unterstützt werden. Das führt zu schlecht ausgerichteten Gradienten und lässt viele verschiedene Feature‑Kombinationen denselben Routenpfad teilen.
Die Autoren quantifizieren diesen Kollisionseffekt mit der route‑weisen effektiven Kompositionszahl Neff. Ein höherer Neff korreliert mit größeren Verluststeigerungen bei alten Aufgaben nach kontinuierlichem Training. Auf Basis dieser Erkenntnisse stellen sie MH‑MoE vor, bei dem das Routing auf Kopf‑Ebene über Unterrepräsentationen erfolgt. Dadurch wird die Granularität erhöht und die Kollisionsrate reduziert.
In Experimenten auf dem TRACE‑Benchmark mit Qwen3‑0.6B/8B zeigt MH‑MoE eine deutliche Verbesserung: Der Backward‑Transfer‑Wert (BWT) sinkt von 11,2 % (LoRAMoE) auf 4,5 %. Diese Ergebnisse deuten darauf hin, dass eine Kopf‑weise Routing‑Strategie das Vergessen in MoE‑Transformern signifikant verringern kann.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.