TawPipe: Topologie‑bewusster Weight‑Pipeline‑Parallelismus schnelleres LLM‑Training
Das Training großer Sprachmodelle wird häufig durch begrenzten Gerätespeicher und teure Inter‑Device‑Kommunikation eingeschränkt. Pipeline‑Parallelismus verteilt das Modell auf mehrere Geräte, reduziert aber die Speicherbelastung nur, während die Aktivierungskommunikation linear mit der Sequenzlänge wächst und die Effizienz bei langen Kontexten stark mindert.
Weight‑Passing‑Ansätze wie WeiPipe haben dieses Problem angegangen, indem sie statt Aktivierungen Modellgewichte übertragen. Sie verringern zwar die Kommunikationslast, leiden jedoch unter redundanten Peer‑to‑Peer‑Transfers und einer ungenutzten intra‑Node‑Bandbreite.
Mit TawPipe wird die Kommunikation noch effizienter gestaltet: Geräte werden nach ihrer Topologie gruppiert, sodass intra‑Node‑Collectives und inter‑Node‑P2P‑Transfers optimiert werden. Jeder Knoten erhält einen festen Shard an Modellgewichten und Gradienten, wodurch redundante Transfers vermieden werden. Gleichzeitig wird die Kommunikation mit der Berechnung überlappt, um Latenzen zu verbergen. Im Gegensatz zu globalen Collective‑Operationen in Fully‑Sharded‑Data‑Parallelism (FSDP) bleibt der Großteil der Datenübertragung innerhalb der Knoten, was den Cross‑Node‑Traffic deutlich reduziert.
Umfangreiche Tests mit bis zu 24 GPUs und LLaMA‑ähnlichen Modellen zeigen, dass TawPipe die Durchsatzrate und Skalierbarkeit gegenüber aktuellen Baselines deutlich verbessert. Die Methode demonstriert, wie topologie‑bewusster Weight‑Pipeline‑Parallelismus das Training von LLMs mit langen Kontexten beschleunigen kann.