Effizienzsteigerung bei Mixture-of-Experts durch Gewicht- und Daten‑Sparsity
In einem neuen Beitrag auf arXiv wird gezeigt, wie Mixture-of-Experts‑Schichten die Rechenleistung durch Gewichtssparsity schon optimieren – jedes Token aktiviert lediglich einen Teil der Experten. Durch die zusätzliche…