Forschung
Transformer-Modelle absorbieren Routing-Signale – Random Gates bleiben konkurrenzfähig
Eine neue Untersuchung auf arXiv zeigt, dass Transformer‑Modelle, die sparsames Attention end‑to‑end trainieren, die Routing‑Signale ihrer…
arXiv – cs.LG