Optimale Expertenauswahl: Selective Sinkhorn Routing steigert SMoE-Leistung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neue Methode „Selective Sinkhorn Routing“ (SSR) bringt Sparse Mixture-of-Experts (SMoE) auf ein neues Level. Durch die Formulierung der Token‑zu‑Experten‑Zuweisung als Problem der optimalen Transportrechnung werden die Expertenauslastung und die Token‑Verteilung automatisch ausgeglichen – ganz ohne zusätzliche Balancierungslossfunktionen.

Im Gegensatz zu bisherigen Ansätzen, die auf aufwändigen Sinkhorn‑Algorithmen und zusätzlichen trainierbaren Parametern wie noisy gating angewiesen sind, nutzt SSR ein leichtgewichtiges Sinkhorn‑Routing. Die Gating‑Scores entstehen direkt aus dem Transport‑Mapping, wodurch die Komplexität reduziert und die Trainingsgeschwindigkeit erhöht wird.

Experimentelle Ergebnisse zeigen, dass SSR sowohl bei Sprachmodellen als auch bei Bildklassifikationsaufgaben zu schnelleren Trainingszeiten, höherer Genauigkeit und verbesserter Robustheit gegenüber Eingabeschäden führt. Damit bietet die Technik einen eleganten und effizienten Weg, die Leistungsfähigkeit von SMoE‑Architekturen zu steigern, ohne die Modellkomplexität unnötig zu erhöhen.

Ähnliche Artikel