Forschung
Effizienzsteigerung bei Mixture-of-Experts durch Gewicht- und Daten‑Sparsity
In einem neuen Beitrag auf arXiv wird gezeigt, wie Mixture-of-Experts‑Schichten die Rechenleistung durch Gewichtssparsity schon optimieren…
arXiv – cs.LG