AMLA: MUL by ADD in FlashAttention Rescaling
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
FlashCache: Frequenzdomänen-basierte KV-Cache-Kompression für multimodale LLMs
MarkTechPost
•
NVIDIA präsentiert KVTC: 20-fache Kompression von KV-Caches für LLM-Serving
arXiv – cs.LG
•
SpecAttn: Schnellere LLM‑Inferenz mit sparsamer Attention und Selbst‑Spekulation
arXiv – cs.LG
•
SOCKET: Soft Collision Kernel für sparsames Attention – Mehr Durchsatz
arXiv – cs.LG
•
SPA-Cache: Effiziente Caching-Strategie für Diffusions-Sprachmodelle
arXiv – cs.LG
•
RAP: Kompression des KV-Caches durch RoPE‑ausgerichtetes Pruning