Forschung
MLPMoE: Zero-Shot Umwandlung dichten LLM-MLPs in statische Mixture-of-Experts
In der Welt der großen Sprachmodelle (LLMs) dominieren dichte Transformer-Architekturen, bei denen jedes Parameter im Feed‑Forward‑Block fü…
arXiv – cs.LG