PuzzleMoE: Kompression von MoE-Modellen um 50 % ohne Qualitätsverlust

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neueste Veröffentlichung von PuzzleMoE zeigt, wie Mixture-of-Experts‑Modelle (MoE) ohne Trainingsaufwand um bis zu 50 % komprimiert werden können, ohne dabei die Genauigkeit zu beeinträchtigen. MoE‑Modelle sind dafür bekannt, nur einen kleinen Teil ihrer Experten pro Eingabe zu aktivieren, was die Skalierbarkeit von Sprachmodellen verbessert. Dennoch bleibt die Speicherung aller Expertenparameter ein erheblicher Speicher‑ und Kostenfaktor, insbesondere wenn die Expertenanzahl steigt.

PuzzleMoE löst dieses Problem mit zwei Schlüsselinnovationen. Erstens führt es eine sparsante Experten‑Fusion ein, die elementweise Gewichtsdurchläufe erkennt und sowohl gemeinsame als auch expertspezifische Parameter mit einem Dual‑Masken‑Ansatz erfasst. Zweitens nutzt das Verfahren ein bit‑verpacktes Kodierungsschema, das ungenutzte Exponenten‑Bits wiederverwendet und so die Notwendigkeit von binären Masken und Vorzeichen eliminiert. Dadurch wird die Effizienz der MoE‑Inference auf GPUs deutlich erhöht.

In umfangreichen Experimenten konnte PuzzleMoE die Modellgröße um bis zu 50 % reduzieren und gleichzeitig die Leistung über verschiedene Aufgaben hinweg stabil halten. Im Vergleich zu früheren Kompressionsmethoden erzielte es einen Verbesserungswert von bis zu 16,7 % bei MMLU bei einer 50‑Prozent‑Kompression und einen Inferenz‑Speed‑up von bis zu 1,28‑fach. Diese Ergebnisse deuten darauf hin, dass PuzzleMoE ein vielversprechender Ansatz ist, um die breite Anwendung von MoE‑Modellen in ressourcenbeschränkten Umgebungen zu ermöglichen.

Ähnliche Artikel