TawPipe: Topologie‑bewusster Weight‑Pipeline‑Parallelismus schnelleres LLM‑Training
Das Training großer Sprachmodelle wird häufig durch begrenzten Gerätespeicher und teure Inter‑Device‑Kommunikation eingeschränkt. Pipeline‑Parallelismus verteilt das Modell auf mehrere Geräte, reduziert aber die Speicherbelastung nur, während die Aktivierungskommunikation linear mit der Sequenzlänge wächst und die Effizienz bei langen Kontexten stark mindert.