Forschung
MSA: Memory Sparse Attention skaliert LLMs auf 100 M Tokens
Die neueste Veröffentlichung von MSA – Memory Sparse Attention – eröffnet einen Weg, die Langzeit‑Speicherfähigkeit von Sprachmodellen mass…
arXiv – cs.AI