Kontextbewusste MoE-Inferenz auf CXL-fähigen GPU‑NDP-Systemen
Die neueste Forschung zeigt, wie Mixture‑of‑Experts‑Modelle (MoE) die Skalierung großer Sprachmodelle durch bedingte Berechnung beschleunigen können, ohne dabei an Speichergrenzen zu scheitern. Sobald die Gewichte der E…
- Die neueste Forschung zeigt, wie Mixture‑of‑Experts‑Modelle (MoE) die Skalierung großer Sprachmodelle durch bedingte Berechnung beschleunigen können, ohne dabei an Speic…
- Sobald die Gewichte der Experten die Kapazität von GPU‑Speicher übersteigen, werden sie in externen Speicher ausgelagert – ein Prozess, der wiederholte und kostenintensi…
- Um dieses Problem zu lösen, nutzt die Studie CXL‑attached Near‑Data Processing (CXL‑NDP) als Offloading‑Tier.
Die neueste Forschung zeigt, wie Mixture‑of‑Experts‑Modelle (MoE) die Skalierung großer Sprachmodelle durch bedingte Berechnung beschleunigen können, ohne dabei an Speichergrenzen zu scheitern. Sobald die Gewichte der Experten die Kapazität von GPU‑Speicher übersteigen, werden sie in externen Speicher ausgelagert – ein Prozess, der wiederholte und kostenintensive Datenübertragungen verursacht.
Um dieses Problem zu lösen, nutzt die Studie CXL‑attached Near‑Data Processing (CXL‑NDP) als Offloading‑Tier. Dadurch werden kalte Experten direkt im Speicher ausgeführt, wodurch teure Parameterbewegungen in kostengünstigere Aktivierungsbewegungen umgewandelt werden. Im Gegensatz zu bisherigen GPU‑NDP‑Systemen, die kontextunabhängig und reaktiv arbeiten, entwickelt die neue Lösung ein kontextbewusstes MoE‑System. Es verwendet Aktivierungsstatistiken aus der Vorab‑Lade‑Phase, um die Platzierung der Experten während der Decodierung zu steuern, „heiße“ Experten dynamisch im GPU‑seitigen HBM zu verankern und die restlichen Experten auf CXL‑NDP zu verschieben.
Um die begrenzte Rechenleistung von NDP zu kompensieren, führt die Arbeit eine kontextbewusste Mixed‑Precision‑Quantisierung ein, die pro Experte Bitbreiten von 1 bis 4 Bit je nach Vorab‑Lade‑Phase zuweist. Das Ergebnis ist ein MoE‑Inference‑System, das GPU‑ und NDP‑Ausführung überlappt und gleichzeitig die Datenbewegung zwischen den Geräten minimiert.
Die Evaluation auf einem GPU‑NDP‑System demonstriert, dass die neue Methode die Decodier‑Durchsatzrate um bis zu 8,7‑fach im Vergleich zum aktuellen Stand der Technik steigert, während die durchschnittliche Genauigkeitsdifferenz lediglich 0,13 % beträgt. Diese Fortschritte markieren einen bedeutenden Schritt in Richtung effizienterer, skalierbarer KI‑Inference auf modernen Hardware‑Architekturen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.