Lineare Surrogates enthüllen Skalierungseffekte in Sprachmodellen
Eine neue Untersuchung zeigt, dass die Tiefenverläufe von Transformer‑Modellen durch kompakte lineare Modelle beschrieben werden können, obwohl die ursprünglichen Systeme hochdimensional und nichtlinear sind. Die Forsch…