EDGC: Dynamische Gradientenkompensation steigert LLM-Trainingseffizienz um bis zu 46 %

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Das Training großer Sprachmodelle (LLMs) erfordert enorme Rechenleistung und Speicher. Trotz verteilter Trainingsmethoden bleibt die Kommunikation zwischen den Knoten ein erheblicher Engpass. Traditionelle Kompressionsverfahren setzen auf statische Raten, ignorieren jedoch die sich ständig verändernde Natur der Gradienten und führen dadurch zu Leistungseinbußen.

Mit dem neuen Ansatz Entropy-driven Dynamic Gradient Compression (EDGC) wird die Kompressionsrate während des Trainings dynamisch an die aktuelle Gradiententrend‑Entropie angepasst. Durch ein effizientes Down‑Sampling wird die Entropie der Gradienten geschätzt, während ein theoretisches Modell die Beziehung zwischen Entropie und Kompressionsrate definiert. Ein fensterbasiertes Anpassungssystem sorgt dafür, dass die Kompression in den verschiedenen Pipeline‑Stufen optimal abgestimmt bleibt.

Die Implementierung von EDGC auf einem 32‑Knoten‑V100‑Cluster und einem 64‑Knoten‑H100‑Cluster zeigte beeindruckende Ergebnisse: Beim Training von GPT‑2‑2,5 B und GPT‑2‑12,1 B wurden die Kommunikationslatenz und die Gesamttrainingszeit um bis zu 46,45 % reduziert, ohne die Modellleistung zu beeinträchtigen.

EDGC demonstriert, dass eine auf Entropie basierende, dynamische Kompression die Effizienz verteilter LLM‑Trainings erheblich steigern kann und damit einen wichtigen Schritt zur Ressourcenschonung in der KI‑Forschung darstellt.

Ähnliche Artikel