SDPA: Eingabevektoren werden auf gemeinsames Flächensystem projiziert

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Scaled Dot-Product Attention (SDPA) bildet das Herzstück moderner Sprachmodelle und komplexer Signalverarbeitungssysteme. In einer neuen Veröffentlichung auf arXiv wird gezeigt, dass SDPA mathematisch äquivalent zu einer Projektion der Eingabevektoren auf eine gemeinsame Oberfläche ist, die sich aus den Eingaben selbst ergibt.

Diese neue Sichtweise erklärt, warum SDPA nicht nur die klassischen „Query–Key–Value“-Prinzipien nutzt, sondern gleichzeitig nichtlineare, zeit- und kontextabhängige Abhängigkeiten erkennt. Durch die Projektion auf die gemeinsame Fläche werden die Token‑Einbettungen dynamisch an die lokale Kontextstruktur angepasst.

Die Umformulierung eröffnet nicht nur schnellere Feedforward- und Lernalgorithmen, sondern legt auch den Grundstein für Erweiterungen. Insbesondere für Zeitreihen mit sich verändernden lokalen Nichtlinearitäten bietet SDPA eine robuste Alternative zur herkömmlichen Self‑Attention und eröffnet neue Perspektiven für die Verarbeitung von sequentiellen Daten.

Ähnliche Artikel