Forschung
Neues QKNorm: Lp‑Norm‑basierte Normalisierung für Transformer
Die Stabilität von Transformer‑Modellen hängt stark von der Normalisierung der Query‑ und Key‑Vektoren ab. Durch die Skalierung dieser Vekt…
arXiv – cs.LG