Transformer-Analyse: Logarithmische Breite, Toleranz gegen Sequenzlänge
Ein neues arXiv‑Veröffentlichung (2601.16514v1) beleuchtet die Optimierung von flachen Transformers. Die Autoren untersuchen, wie sich Gradient‑Descent in der Kernel‑Regime‑Phase verhält und liefern eine Finite‑Time‑Ana…