Transformer-Modelle zeigen überraschende anatomische Heterogenität
Ein neues arXiv‑Paper untersucht die Annahme, dass alle Schichten eines Transformer‑Modells gleich behandelt werden. Das Modell SmolLM2‑135M, bestehend aus 30 Schichten und 135 Mio. Parametern, dient als Testobjekt. Die…