Forschung
LLEP: Schnellere, Speicherfreundlichere MoE-Modelle dank dynamischer Lastverteilung
In der Welt der großen Sprachmodelle, die auf Mixture-of-Experts (MoE) setzen, ist die effiziente Verteilung von Rechenaufgaben entscheiden…
arXiv – cs.LG