Symmetriebrechung in Transformers: Mehr Leistung & Interpretierbarkeit
In einer neuen Studie wird gezeigt, dass das Standard-Attention‑Modell ungenutzte Rotationsfreiheitsgrade besitzt, die zwar durch die Berechnung laufen, aber die Ausgaben nicht beeinflussen. Durch das Einführen eines ei…