Neues QKNorm: Lp‑Norm‑basierte Normalisierung für Transformer
Die Stabilität von Transformer‑Modellen hängt stark von der Normalisierung der Query‑ und Key‑Vektoren ab. Durch die Skalierung dieser Vektoren wird sichergestellt, dass das Lernen unabhängig von deren Größe zuverlässig…