Effiziente Langkontext-Inferenz: Write-Gated KV reduziert Speicherbedarf um bis zu 57 %
Die neue Studie von EMCLab-Sinica zeigt, dass die häufigste Ursache für langsame Langkontext-Inferenz bei großen Sprachmodellen nicht die quadratische Aufmerksamkeit selbst, sondern das indiscriminierte Schreiben von Sc…