Forschung
Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %
Die neue Studie von EMCLab-Sinica zeigt, dass die häufigste Ursache für langsame Langkontext-Inferenz bei großen Sprachmodellen nicht die q…
arXiv – cs.LG