Forschung
Reise-Wellen als neue Positionskodierung für Transformer: RollPE schlägt RoPE
Transformers benötigen Positionskodierungen, um die inhärente Permutationsinvarianz der Selbstaufmerksamkeit zu kompensieren. Traditionell…
arXiv – cs.LG