Optimale Expertenauswahl: Selective Sinkhorn Routing steigert SMoE-Leistung
Die neue Methode „Selective Sinkhorn Routing“ (SSR) bringt Sparse Mixture-of-Experts (SMoE) auf ein neues Level. Durch die Formulierung der Token‑zu‑Experten‑Zuweisung als Problem der optimalen Transportrechnung werden…