Forschung
Interleaved Head Attention: Mehr Kommunikation zwischen Attention‑Köpfen
Die Multi‑Head Attention (MHA) bildet das Herz moderner Large Language Models, doch ihre lineare Skalierung birgt ein Problem: Jeder der H…
arXiv – cs.LG