AGGC: Adaptive Group Gradient Clipping stabilisiert Sprachmodelltraining
In der Welt der großen Sprachmodelle (LLMs) ist das Training oft von explosiven Gradienten begleitet, die das Lernen stören. Um diesem Problem entgegenzuwirken, setzt die Forschung traditionell auf Gradient Clipping, wobei die globale Norm aller Parameter gleichmäßig begrenzt wird. Diese Vorgehensweise ignoriert jedoch die unterschiedliche Dynamik einzelner Modellmodule und führt häufig zu einem „Spill‑over“-Effekt, bei dem stabile Parameter unnötig skaliert werden.