Forschung
Neues Training für MoE-Modelle: Experten lernen sich zu spezialisieren
Die Mixture-of-Experts (MoE)-Architektur gilt als Schlüsseltechnologie für die Skalierung großer Sprachmodelle, leidet jedoch häufig unter…
arXiv – cs.LG