Mosaic Pruning: Neues Verfahren für vielseitiges Pruning von Mixture-of-Experts
Die Sparse Mixture-of-Experts (SMoE) Architektur hat die Skalierung großer Sprachmodelle revolutioniert, indem sie nur einen Bruchteil der Parameter während der Inferenz aktiviert. Trotz dieser Effizienz bleibt die prak…