Forschung
DualSparse‑MoE: Effiziente Sparsity‑Koordination für große Sprachmodelle
Die Mixture‑of‑Experts‑Architektur (MoE) hat sich als Standard für die Skalierung großer Sprachmodelle etabliert, indem sie pro Token nur e…
arXiv – cs.LG