TriAttention: KV-Cache-Kompression mit 2,5-fachem Durchsatz – MIT & NVIDIA
In der KI-Forschung haben Forscher des MIT, NVIDIA und der Zhejiang University ein neues Verfahren namens TriAttention vorgestellt, das die Effizienz von Sprachmodellen drastisch steigert. Bei großen Sprachmodellen wie…