Aufmerksamkeit in niedrigen Dimensionen: Neue Erkenntnisse für Sparse‑Learning
Forscher haben entdeckt, dass die Ausgaben von Aufmerksamkeits‑Schichten in Transformer‑Modellen nicht im erwarteten hochdimensionalen Raum liegen, sondern in einem überraschend kleinen Unterraum konzentriert sind. Etwa 60 % der Richtungen erklären 99 % der Varianz – ein Effekt, der durch die Projektionsmatrix der Aufmerksamkeitsausgabe entsteht und bei verschiedensten Modellen und Datensätzen beobachtet wurde.