MoE-Architekturen: Soft Clustering & Dual-Jacobian-PCA enthüllen neue Geometrie
In einer wegweisenden Studie wird die Geometrie von Mixture-of-Experts (MoE)-Netzwerken aus einer völlig neuen Perspektive beleuchtet. Durch die Interpretation des Routings als weiche Partitionierung des Repräsentationsraums in überlappende lokale Karten entsteht ein klarer geometrischer Rahmen, der bisher wenig verstanden war.
Der zentrale Beitrag ist ein Dual-Jacobian-PCA-Analysewerkzeug, das die lokale Funktionsgeometrie mittels der Singulärwertspektren der Jacobian-Matrizen und die Repräsentationsgeometrie durch gewichtetes PCA der gerouteten Hidden States untersucht. In einem kontrollierten MLP‑MoE‑Setup, das eine exakte Jacobian‑Berechnung ermöglicht, werden dense, Top‑k und vollständig weiche Routing‑Architekturen unter identischer Kapazität verglichen.
Die Ergebnisse sind beeindruckend: MoE‑Routing senkt konsequent die lokale Sensitivität. Die Jacobian‑Singulärwerte der Experten weisen kleinere Spitzenwerte und schnellere Spektralabfälle auf als bei dichten Baselines. Gleichzeitig zeigt das gewichtete PCA, dass die Expertenspezifischen Repräsentationen ihre Varianz über mehr Hauptkomponenten verteilen, was auf einen höheren effektiven Rang hinweist.
Ein weiteres Highlight ist die nahezu Orthogonalität der durchschnittlichen Expert-Jacobians. Dies deutet darauf hin, dass die Transformation in wenig überlappende, expertspezifische Unterräume zerlegt wird, anstatt lediglich skalierten Varianten einer gemeinsamen Abbildung zu entsprechen. Die Schärfe des Routings beeinflusst diese Effekte maßgeblich: Top‑k‑Routing erzeugt kompaktere, niedrig-rankige Strukturen, während vollständig weiches Routing breitere, diversifizierte Muster hervorbringt.
Diese Erkenntnisse liefern ein tiefgreifendes Verständnis dafür, wie MoE‑Architekturen die Geometrie von Funktionen und Repräsentationen formen. Sie eröffnen neue Wege, um die Effizienz und Leistungsfähigkeit von Modellen durch gezielte Routing‑Strategien zu optimieren.