ENA: Effiziente N-dimensionale Aufmerksamkeit für lange Hochdimensionale Daten
Ein neues arXiv-Papier mit dem Titel „Efficient N-dimensional Attention“ (ENA) präsentiert eine Architektur, die das Modellieren ultra-langer Sequenzen hochdimensionaler Daten deutlich beschleunigt. Die Autoren zeigen, dass die herkömmliche Transformer‑Architektur bei solchen Aufgaben zu ressourcenintensiv ist und schlagen stattdessen eine Kombination aus linearer Rekurrenz und einer speziellen Sliding‑Window‑Attention vor.