Fusion von Positionskodierungen entscheidend für lange Texte in Transformers
Transformers brauchen Positionskodierungen, um die Reihenfolge von Tokens zu erfassen. Während die Forschung bisher vor allem neue Kodierungen erforscht hat, bleibt die Art und Weise, wie diese Informationen mit den Token‑Einbettungen kombiniert werden, oft unbeachtet. In einer neuen Studie wird genau das untersucht: Wie wirkt sich die Fusion selbst auf die Leistung aus, besonders bei langen Sequenzen?
Die Autoren vergleichen drei klassische Fusion‑Strategien – elementweise Addition, Konkatenation mit Projektion und skalare Gating‑Fusion – unter identischen Modellen, Datensplits und Zufallsseed‑Werten. Auf drei Textklassifikations‑Datensätzen, die von kurzen (AG News) über mittlere (IMDB) bis zu langen (ArXiv) Dokumenten reichen, zeigen die Ergebnisse, dass die Wahl der Fusion bei kurzen Texten kaum Einfluss hat, bei langen Dokumenten jedoch konsequente Verbesserungen erzielt.
Um sicherzugehen, dass die Vorteile strukturell und nicht zufällig sind, führen die Forscher Paired‑Seed‑Analysen und Querschnittsvergleiche über verschiedene Längen‑Regime hinweg durch. Weitere Experimente auf dem ArXiv‑Datensatz belegen, dass die Vorteile lernbarer Fusionen über mehrere Familien von Positionskodierungen hinweg gelten.
Zusätzlich wird ein leichtgewichtiges, konvolutionelles Gating‑Modell vorgestellt, das lokale Induktionsbias auf der Fusionsebene einführt und ausschließlich bei langen Dokumenten getestet wird. Die Resultate zeigen, dass die Art der Positionskodierungsfusion ein entscheidender, nicht trivialer Design‑Entscheid für lange‑Sequenz‑Transformers ist und nicht als feste Standard‑Option betrachtet werden sollte.