Router‑Kalibrierung rettet re‑Training‑freie MoE‑Kompression

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neueste Studie aus dem arXiv‑Repository zeigt, dass die gängige Praxis, Mixture‑of‑Experts‑Modelle ohne erneutes Training zu komprimieren, häufig zu Leistungseinbußen führt. Der Grund liegt nicht in der Reduktion der Experten selbst, sondern in einer vernachlässigten „Router‑Expert‑Mismatch“-Situation: Wenn Experten entfernt, geändert oder zusammengeführt werden, bleibt der Router unverändert und trifft falsche Routing‑Entscheidungen.

Um dieses Problem zu lösen, schlagen die Autoren die Router Knowledge Distillation (Router KD) vor. Dabei werden lediglich die Router‑Parameter – ein winziger Bruchteil der gesamten Modellparameter – anhand der nächsten‑Token‑Verteilung des Originalmodells auf unbeschrifteten Kalibrierungsdaten angepasst. So bleibt die Expertenarchitektur unverändert, während der Router neu abgestimmt wird.

Experimentelle Ergebnisse über alle drei Kompressionsparadigmen – Expert Pruning, Expert Editing und Expert Merging – zeigen, dass Router KD die Leistung konsequent wiederherstellt. Besonders bei feingranularen MoEs, die viele kleine Experten enthalten, erzielt die Methode deutlich größere Verbesserungen, weil die Routing‑Grenzen hier komplexer sind.

Die Arbeit unterstreicht, dass eine leichte Router‑Kalibrierung ein entscheidender Schritt ist, um re‑Training‑freie MoE‑Kompression effizient und zuverlässig einzusetzen.