Forschung
X-MoE: Skalierbares Training von Mixture-of-Experts auf HPC-Plattformen
Die neueste Generation von Mixture-of-Experts (MoE)-Modellen, darunter DeepSeek‑MoE, erzielt beeindruckende Ergebnisse, stößt jedoch bei de…
arXiv – cs.LG