Forschung
Transformers schneller: Feature‑Sparse Attention reduziert Rechenaufwand um 2,5×
Die Skalierung von Transformer‑Modellen auf ultra‑lange Kontexte wird bislang durch den quadratischen Rechenaufwand der Selbst‑Aufmerksamke…
arXiv – cs.LG