MLPMoE: Zero-Shot Umwandlung dichten LLM-MLPs in statische Mixture-of-Experts
In der Welt der großen Sprachmodelle (LLMs) dominieren dichte Transformer-Architekturen, bei denen jedes Parameter im Feed‑Forward‑Block für jedes Token aktiviert wird. Diese Einfachheit führt jedoch zu einer linearen S…