Forschung
Symmetriebrechung in Transformers: Mehr Leistung & Interpretierbarkeit
In einer neuen Studie wird gezeigt, dass das Standard-Attention‑Modell ungenutzte Rotationsfreiheitsgrade besitzt, die zwar durch die Berec…
arXiv – cs.LG