Dynamisches Top‑p MoE: Flexibles Routing für große Modelle
Ein neues Papier aus dem arXiv‑Repository präsentiert DTop‑p MoE, ein innovatives Verfahren, das die klassische Top‑k‑Routingschaltung durch ein dynamisches Top‑p‑Routing ersetzt. Während bei herkömmlichen Sparse‑Mixture‑of‑Experts‑Architekturen immer nur ein kleiner Teil der Experten pro Token aktiviert wird, berücksichtigt DTop‑p die individuelle Schwierigkeit jedes Tokens und passt die Aktivierungswahrscheinlichkeit in Echtzeit an.
Der Schlüssel liegt in einem Proportional‑Integral‑Controller, der den Schwellenwert für die Top‑p‑Auswahl kontinuierlich justiert, sodass die durchschnittliche Sparsität exakt dem gewünschten Zielwert entspricht. Zusätzlich wird ein dynamisches Routing‑Normalisierungssystem eingesetzt, das die Logits je Layer anpasst und so unterschiedlichen Schichten erlaubt, eigene Experten‑Auswahlmuster zu erlernen, während ein globaler Schwellenwert beibehalten wird.
Umfangreiche Tests an großen Sprachmodellen und Diffusions‑Transformern zeigen, dass DTop‑p MoE sowohl die Leistung als auch die Effizienz gegenüber herkömmlichen Top‑k‑ und festen Top‑p‑Baselines deutlich verbessert. Die Methode behält die Kontrolle über die Anzahl aktivierter Experten bei, verteilt Ressourcen flexibel über Tokens und Layer und skaliert gut mit zunehmender Experten‑Granularität, Kapazität, Modellgröße und Datensatzumfang.