Low‑Rank-Kompression für Mixture-of-Experts: Bandbreite optimiert
Die neueste Forschung präsentiert eine bahnbrechende Methode, die die Bandbreite von Mixture-of-Experts (MoE) Modellen drastisch reduziert, ohne die Genauigkeit zu opfern. MoE‑Modelle nutzen sparsames Routing, um die Kapazität zu erhöhen, doch dabei entstehen erhebliche Speicher- und Bandbreitenengpässe. Durch das On‑Demand‑Offloading werden Experten erst bei Bedarf geladen, was jedoch zu unregelmäßigen Datenübertragungen führt und die Inferenz stark I/O‑basiert macht.
Eine herkömmliche Lösung – die gleichmäßige Quantisierung – senkt zwar den Datenverkehr, führt aber zu Genauigkeitsverlusten, weil sie die Unterschiede zwischen den Experten ignoriert. Die neue Technik nutzt stattdessen router‑gesteuerte Präzisionswiederherstellung mit vorab berechneten Low‑Rank‑Komponenten. Während der Inferenz werden nur kompakte Low‑Rank‑Faktoren für die Top‑n‑Experten pro Token übertragen und anschließend kompensiert, während die übrigen Experten in niedriger Bit‑Tiefe bleiben.
In Kombination mit Offloading auf GPUs und GPU‑NDP‑Systemen erzielt die Methode einen überlegenen Bandbreiten‑Genauigkeit‑Trade‑off und steigert die Durchsatzrate signifikant. Diese Innovation eröffnet neue Möglichkeiten für die effiziente Skalierung großer Sprachmodelle in ressourcenbeschränkten Umgebungen.