Forschung
Neue Attention‑Methode verhindert Sinks und sorgt für ultra‑sparse Modelle
Softmax‑Attention hat lange Zeit die Verarbeitung großer Textsequenzen erschwert, weil die strenge Summe‑zu‑Eins‑Beschränkung zu „Sinks“ an…
arXiv – cs.LG