Neue Attention‑Methode verhindert Sinks und sorgt für ultra‑sparse Modelle
Softmax‑Attention hat lange Zeit die Verarbeitung großer Textsequenzen erschwert, weil die strenge Summe‑zu‑Eins‑Beschränkung zu „Sinks“ an irrelevanten Tokens führt und die Wahrscheinlichkeit mit zunehmender Länge vers…