Mixture of Experts zeigen robuste Leistung bei verrauschten Features
Ein neues arXiv‑Papier beleuchtet, warum Mixture of Experts (MoE) Modelle trotz gleicher Parameterzahl besser abschneiden als dichte Netzwerke. In einer kontrollierten Umgebung, in der Eingaben modulare Strukturen besitzen, aber mit Feature‑Rauschen belegt sind, wird gezeigt, dass die gezielte Aktivierung sparsamer Experten als effektiver Rauschfilter wirkt.
Im Vergleich zu dichten Schätzern erzielen MoEs geringere Generalisierungsfehler, höhere Robustheit gegenüber Störungen und beschleunigen die Konvergenz. Sowohl synthetische Experimente als auch reale Sprachaufgaben bestätigen die theoretischen Erkenntnisse und demonstrieren konsequente Effizienz‑ und Robustheitsgewinne durch modulare, sparsante Berechnungen.