Neue Analyse enthüllt, wie Vision Transformers Tokens kommunizieren Forscher haben ein neues Analysewerkzeug namens Bi‑Orthogonal Factor Decomposition (BFD) entwickelt, das die Funktionsweise von Self‑Attention in Vision Transformers genauer beleuchtet. BFD zerlegt zunächst die Aktivierungen von Tokens statistisch in orthogonale Position‑ und Inhaltsfaktoren und analysiert anschließend die Interaktionsmatrix der Queries und Keys mittels SVD. So wird deutlich, welche Informationen zwischen Tokens ausgetausc

arXiv – cs.AI Original
Anzeige