Transformers schneller: Feature‑Sparse Attention reduziert Rechenaufwand um 2,5×
Die Skalierung von Transformer‑Modellen auf ultra‑lange Kontexte wird bislang durch den quadratischen Rechenaufwand der Selbst‑Aufmerksamkeit, O(n²d), begrenzt. Traditionelle Ansätze senken die Kosten entlang der Sequen…