MoE-Linsen: Ein Experte reicht aus
Mixture-of-Experts‑Modelle (MoE) ermöglichen eine parameter‑effiziente Skalierung, indem sie nur wenige Experten pro Berechnung aktivieren. Trotz ihres Potenzials bleiben Optimierung von Inferenz- und Speicheraufwand so…