Transformer-Modelle absorbieren Routing-Signale – Random Gates bleiben konkurrenzfähig

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Eine neue Untersuchung auf arXiv zeigt, dass Transformer‑Modelle, die sparsames Attention end‑to‑end trainieren, die Routing‑Signale ihrer Gate‑Netzwerke kaum nutzen können. Statt die wichtigsten Attention‑Einträge zu identifizieren, passen sich die Q/K/V‑Projektionen an die angewandte Maske an und absorbieren damit die Routing‑Informationen. Das Ergebnis: Lernende Gates liefern nur minimale Verbesserungen gegenüber festgelegten, zufälligen Gates.

In der Theorie können Transformer dank stark konzentrierter Attention‑Verteilungen mit einem kleinen Gate‑Netzwerk nahezu perfekte Entscheidungen treffen. In der Praxis jedoch zeigt die Studie, dass die Q/K/V‑Parameter sich mit jeder Maske co‑adaptieren und die Gate‑Signalstärke verlieren. Dadurch bleibt die Leistung der lernenden Gates nahezu gleich der von zufälligen Gates.

Vier unabhängige Belege untermauern dieses Phänomen bei einem 31‑Mio‑Parameter‑Transformer: Erstens konvergiert differenzierbares Soft‑Gating zu nahezu identischer Perplexität, egal ob das Gate gelernt oder zufällig ist (48,73 ± 0,60 vs. 49,83 ± 0,04). Zweitens erhält Hard‑Top‑k‑Gating exakt keinen Gradienten durch die Maske. Drittens führt ein distilliertes Gate, das auf co‑adaptierten Q/K/V angewendet wird, zu hoher F1‑Genauigkeit gegenüber Oracle‑Masks, aber zu katastrophaler Perplexität bei Einsatz auf maskenunabhängigen Q/K/V (601,6 vs. 48,6). Viertens verhindert die stochastische Masken‑Randomisierung während des Trainings nicht die Co‑Adaptation (78,2 Perplexität bei dichten Deployment vs. 37,3 Baseline).

Das Phänomen wird mit dem ähnlichen Verhalten in Mixture‑of‑Experts (MoE) verglichen, wo zufälliges Routing ebenfalls die Leistung von lernenden Routern erreicht, weil die Experten sich an jeden Router anpassen. Bei Attention ist die Situation jedoch strukturell schwerer, da gemeinsame Q/K/V‑Parameter Querverbindungen zwischen Schichten ermöglichen – ein Mechanismus, der bei MoE nicht vorhanden ist, weil die Experten eigenständige Module sind.

Die Erkenntnisse legen nahe, dass end‑to‑end sparsames Attention, das pro Query Gate‑Netzwerke nutzt, nicht automatisch die Leistung von zufälligen Gates übertrifft. Entwickler sollten alternative Strategien prüfen, um die Co‑Adaptation zu reduzieren und die Routing‑Signale effektiver zu nutzen.