Forschung
SpecAttn: Schnellere LLM‑Inferenz mit sparsamer Attention und Selbst‑Spekulation
Die Inferenz von großen Sprachmodellen mit langen Kontexten ist heute Standard, doch sie wird stark durch die wachsenden Speicheranforderun…
arXiv – cs.LG