MLPMoE: Zero-Shot Umwandlung dichten LLM-MLPs in statische Mixture-of-Experts
In der Welt der großen Sprachmodelle (LLMs) dominieren dichte Transformer-Architekturen, bei denen jedes Parameter im Feed‑Forward‑Block für jedes Token aktiviert wird. Diese Einfachheit führt jedoch zu einer linearen Skalierung der Rechenkosten mit der Parameterzahl – ein klarer Engpass bei der Inferenz.
Die neue Methode MLPMoE (MLP Mixture‑of‑Experts) löst dieses Problem, indem sie die dichten MLPs in Transformer‑Blöcken ohne Training in statische, hochkartenartige Mixture‑of‑Experts umwandelt. Durch einfache Tensor‑Slicing‑ und Summationsoperationen wird die Algebra der Tensor‑Parallelität in eine topologische Umwandlung überführt, die keine zusätzlichen Trainingsdaten oder komplexe Routing‑Mechanismen benötigt.
Zusätzlich werden die leichtgewichtigen Techniken Fractal Fade (differenzielle Branch‑Sparsity) und Compensated Pruning (varianz‑erhaltende Branch‑Reduktion) eingeführt, um strukturiert sparsere Modelle zu erzeugen. Auf den Modellen Qwen2.5‑0.5B‑Instruct und DeepSeek‑R1‑Distill‑Llama‑8B verändert die Zero‑Shot‑Transformation die Proxy‑Perplexität um weniger als 0,05 % und hält die Parameterzahl nahezu konstant. Bei dem 8‑B‑Modell reduziert die differenzielle Sparsity etwa 20 % der MLP‑Parameter, während die Perplexität innerhalb von rund 2 % des dichten Basismodells bleibt.
MLPMoE demonstriert damit, dass dichte LLM‑Architekturen effizient in sparsere, modulare Strukturen überführt werden können – ohne Trainingsaufwand und mit minimalen Leistungsverlusten. Diese Entwicklung eröffnet neue Wege für ressourcenschonende Inferenzlösungen in der KI‑Forschung und -Anwendung.