Forschung
Optimierer formen Lernpfade: Drift und Transversalität bei Transformers
In einer neuen Untersuchung von arXiv‑Studien wird die Geometrie von Trainingspfaden in kleinen Transformer‑Modellen genauer beleuchtet. Da…
arXiv – cs.LG