Forschung
VSPrefill: Neue Sparse‑Attention für lange Kontexte – 4,95‑fach schneller
Die quadratische Komplexität der Selbst‑Attention‑Phase behindert die Nutzung von Sprachmodellen mit sehr langen Kontexten. Bestehende Spar…
arXiv – cs.LG