X-MoE: Skalierbares Training von Mixture-of-Experts auf HPC-Plattformen
Die neueste Generation von Mixture-of-Experts (MoE)-Modellen, darunter DeepSeek‑MoE, erzielt beeindruckende Ergebnisse, stößt jedoch bei der Skalierung an Grenzen. Hohe Aktivierungs‑Speicheranforderungen und aufwendige…