RoPE erklärt das Slash-Muster in Attention: Warum es entsteht
Große Sprachmodelle zeigen häufig ein auffälliges „Slash‑Muster“ in ihren Aufmerksamkeitswerten: die Scores konzentrieren sich entlang einer Diagonale mit einem festen Versatz. Dieses Phänomen spielt eine entscheidende…