Forschung
RoPE erklärt das Slash-Muster in Attention: Warum es entsteht
Große Sprachmodelle zeigen häufig ein auffälliges „Slash‑Muster“ in ihren Aufmerksamkeitswerten: die Scores konzentrieren sich entlang eine…
arXiv – cs.LG