SOCKET: Soft Collision Kernel für sparsames Attention – Mehr Durchsatz
Die Skalierung großer Sprachmodelle hängt stark davon ab, wie effizient lange Kontexte verarbeitet werden können. Bei der autoregressiven Dekodierung dominiert die Attention den Rechenaufwand, weshalb sparsames Attentio…