NuMuon: Optimierer mit nuklearem Norm-Constraint steigert Kompression von LLMs

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die rasante Entwicklung großer Sprachmodelle (LLMs) wird zunehmend durch Speicher- und Bereitstellungskosten begrenzt. Um diese Hürden zu überwinden, setzen Entwickler auf Kompressionsverfahren, die vor allem die niedrige Rangstruktur der trainierten Gewichtsmatrizen ausnutzen – ein Phänomen, das eng mit Optimierern wie Adam verknüpft ist.

Der neu vorgestellte Optimierer Muon nutzt vollständige Rang-Updates, doch überraschenderweise zeigen Muon-Trainingsmodelle dennoch eine ausgeprägte niedrige Rangstruktur. Diese Entdeckung hat die Basis für NuMuon gelegt, einen Weiterentwicklungsansatz, der Muon um eine nukleare Norm-Beschränkung ergänzt. Durch diese zusätzliche Einschränkung wird die Gewichtsanpassung gezielt in Richtung niedriger Rangstruktur gelenkt.

In umfangreichen Experimenten mit Modellen im Milliardenparameterbereich konnte gezeigt werden, dass NuMuon die Kompressibilität der Gewichte deutlich erhöht. Gleichzeitig verbessert sich die Modellqualität nach der Kompression, während die schnelle Konvergenz von Muon erhalten bleibt. Damit bietet NuMuon einen vielversprechenden Weg, LLMs effizienter zu trainieren und gleichzeitig ihre Einsatzfähigkeit in ressourcenbeschränkten Umgebungen zu steigern.

Ähnliche Artikel