Transformer-MLPs: Hälfte der Nichtlinearität verschwendet – spart Rechenleistung
Eine neue Studie auf arXiv zeigt, dass bei Transformer‑Modellen bis zu die Hälfte der nichtlinearen Berechnungen im MLP‑Block unnötig ist. Durch einen einfachen Gate‑Mechanismus, der nur d + 1 Parameter benötigt, kann e…