Forschung
Neue Path-Constrained MoE-Architektur verbessert Sprachmodelle
Eine neue Variante der Sparse Mixture-of-Experts (MoE) – PathMoE – verspricht, die Effizienz von Sprachmodellen noch weiter zu steigern. Tr…
arXiv – cs.LG