AGGC: Adaptive Group Gradient Clipping stabilisiert Sprachmodelltraining
In der Welt der großen Sprachmodelle (LLMs) ist das Training oft von explosiven Gradienten begleitet, die das Lernen stören. Um diesem Problem entgegenzuwirken, setzt die Forschung traditionell auf Gradient Clipping, wo…