Mixture-of-Experts: Hyperparameter-Transfer für skalierbare Transformer
Mixture-of-Experts (MoE)-Schichten haben sich als Schlüsseltechnologie etabliert, um moderne neuronale Netzwerke zu skalieren. Sie trennen die Gesamtzahl der trainierbaren Parameter von den tatsächlich aktivierten Param…