Sliced ReLU Attention: Quasi-lineare Kontext-Expressivität durch Sortieren
Ein neues Attention‑Modell namens Sliced ReLU Attention wurde vorgestellt, das sich strukturell von Softmax‑ und herkömmlichen ReLU‑Alternativen unterscheidet. Anstatt eine Nichtlinearität auf die paarweisen Skalarprodu…