Breite statt Tiefe: Warum Transformer breiter, nicht tiefer sein sollten

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Eine neue Untersuchung aus dem arXiv‑Repository hat die Art und Weise, wie wir Transformer‑Architekturen skalieren, grundlegend überdacht. Die Forscher haben Architektur‑abhängige Skalierungs­gesetze entwickelt, die zeigen, dass die optimale Tiefe und Breite eines Modells stark voneinander abhängen.

Die Analyse ergab, dass die optimale Tiefe mit der Modellgröße C etwa als C0,12 wächst, während die optimale Breite mit C0,34 zunimmt. Das bedeutet, dass die Breite mit rund 2,8‑facher Geschwindigkeit im Vergleich zur Tiefe wachsen muss, um die beste Leistung zu erzielen.

Ein besonders auffälliges Ergebnis ist das Phänomen des „Depth Delusion“. Sobald die Tiefe einen kritischen Wert Dcrit ≈ W0,44 überschreitet – ein sublinearer Anstieg in Bezug auf die Breite – führt das Hinzufügen weiterer Schichten tatsächlich zu einem höheren Verlust, obwohl mehr Parameter vorhanden sind. Dieses Verhalten unterstreicht, dass zu tiefe Modelle nicht zwangsläufig besser sind.

Die Theorie wurde anhand von 30 Transformer‑Architekturen mit Größen von 17 M bis 7 B Parametern getestet, die jeweils auf hochrechenintensiven Trainingsbeispielen trainiert wurden. Die Vorhersagen der neuen Skalierungs­gesetze erzielten ein R2 von 0,922, was die hohe Genauigkeit der Modelle bestätigt.

Ein konkretes Beispiel aus der Praxis: Bei einer 7 B‑Skala übertraf ein 32‑Layer‑Modell mit 6,86 B Parametern ein 64‑Layer‑Modell mit 6,38 B Parametern um 0,12 Nats, obwohl das letztere deutlich tiefer war. Diese Ergebnisse zeigen, dass die optimale Tiefe‑Breite‑Trade‑Offs auch bei produktionsrelevanten Größenordnungen bestehen bleiben.

Zusammenfassend lässt sich sagen, dass die Forschung ein klares Signal aussendet: Für leistungsstarke Transformer‑Modelle ist es entscheidend, die Breite stärker zu erhöhen als die Tiefe. Das Konzept des „Depth Delusion“ sollte bei der Architekturplanung daher unbedingt berücksichtigt werden.

Ähnliche Artikel