Forschung
Multi-Head Attention verursacht Vergessens bei MoE-Transformern – Lösung reduziert Rückfall
Mixture-of-Experts (MoE)-Architekturen gelten als vielversprechend für kontinuierliches Lernen, weil die sparsamen Routenupdates die Interf…
arXiv – cs.LG