LLEP: Schnellere, Speicherfreundlichere MoE-Modelle dank dynamischer Lastverteilung
In der Welt der großen Sprachmodelle, die auf Mixture-of-Experts (MoE) setzen, ist die effiziente Verteilung von Rechenaufgaben entscheidend. Trotz sorgfältiger Vortrainingsverfahren zeigen viele MoE-Modelle eine stark…