DualSparse‑MoE: Effiziente Sparsity‑Koordination für große Sprachmodelle
Die Mixture‑of‑Experts‑Architektur (MoE) hat sich als Standard für die Skalierung großer Sprachmodelle etabliert, indem sie pro Token nur einen kleinen Teil der Parameter aktiviert. Trotz dieser Sparsity bleiben die Mod…