MLPMoE: Zero-Shot Umwandlung dichten LLM-MLPs in statische Mixture-of-Experts
In der Welt der großen Sprachmodelle (LLMs) dominieren dichte Transformer-Architekturen, bei denen jedes Parameter im Feed‑Forward‑Block für jedes Token aktiviert wird. Diese Einfachheit führt jedoch zu einer linearen Skalierung der Rechenkosten mit der Parameterzahl – ein klarer Engpass bei der Inferenz.