LLEP: Schnellere, Speicherfreundlichere MoE-Modelle dank dynamischer Lastverteilung
In der Welt der großen Sprachmodelle, die auf Mixture-of-Experts (MoE) setzen, ist die effiziente Verteilung von Rechenaufgaben entscheidend. Trotz sorgfältiger Vortrainingsverfahren zeigen viele MoE-Modelle eine stark unausgeglichene Expert-Routing‑Verteilung. Diese Ungleichheit kann zwar dazu beitragen, domänenspezifisches Wissen zu fokussieren, führt aber bei der parallelen Ausführung zu Engpässen: Einige Geräte werden überlastet, während andere unterausgelastet bleiben.