Forschung
Transformer-Keys verkleinern: Low-Dimensional Attention spart Speicher
In einer neuen Studie wird die bisherige Symmetrie im Transformer‑Attention‑Mechanismus in Frage gestellt. Während klassische Modelle diese…
arXiv – cs.LG