Forschung
Transformer-MLPs: Hälfte der Nichtlinearität verschwendet – spart Rechenleistung
Eine neue Studie auf arXiv zeigt, dass bei Transformer‑Modellen bis zu die Hälfte der nichtlinearen Berechnungen im MLP‑Block unnötig ist…
arXiv – cs.LG