Forschung
Lineare Surrogates enthüllen Skalierungseffekte in Sprachmodellen
Eine neue Untersuchung zeigt, dass die Tiefenverläufe von Transformer‑Modellen durch kompakte lineare Modelle beschrieben werden können, ob…
arXiv – cs.LG