AGGC: Adaptive Group Gradient Clipping stabilisiert Sprachmodelltraining

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In der Welt der großen Sprachmodelle (LLMs) ist das Training oft von explosiven Gradienten begleitet, die das Lernen stören. Um diesem Problem entgegenzuwirken, setzt die Forschung traditionell auf Gradient Clipping, wobei die globale Norm aller Parameter gleichmäßig begrenzt wird. Diese Vorgehensweise ignoriert jedoch die unterschiedliche Dynamik einzelner Modellmodule und führt häufig zu einem „Spill‑over“-Effekt, bei dem stabile Parameter unnötig skaliert werden.

Die neue Methode Adaptive Group Gradient Clipping (AGGC) löst dieses Problem, indem sie die Parameter in funktionale Gruppen unterteilt und jede Gruppe individuell reguliert. Dabei nutzt AGGC einen exponentiellen gleitenden Durchschnitt (EMA), um ein adaptives Intervall zu bestimmen, das sowohl Gradient Explosion als auch Vanishing verhindert. Zusätzlich sorgt ein zeitabhängiger Scheduling‑Mechanismus dafür, dass Exploration und Konvergenz ausgewogen bleiben.

Experimentelle Ergebnisse zeigen, dass AGGC bei Modellen wie LLaMA 2‑7B, Mistral‑7B und Gemma‑7B konsequent bessere Ergebnisse liefert als LoRA und häufig sogar Full Fine‑Tuning übertrifft. Auf dem GSM8K‑Benchmark erreichte Mistral‑7B mit AGGC eine Genauigkeit von 72,93 % – deutlich höher als die 69,5 % von LoRA. AGGC stabilisiert zudem Reinforcement‑Learning‑Aufgaben mit verifizierbaren Belohnungen (RLVR) und verbessert die logische Deduktion von Qwen 2.5 und Llama 3.2.

Dank seines schlanken Designs lässt sich AGGC nahtlos in bestehende Trainingspipelines integrieren und adressiert die Schwächen herkömmlicher Gradient‑Clipping‑Methoden. Durch die modulare, adaptive Clip‑Strategie wird das Training von LLMs zuverlässiger und effizienter, was die Entwicklung leistungsfähiger Sprachmodelle beschleunigt.

Ähnliche Artikel