MOSS: Effizientes FP8-Training für große Sprachmodelle
FP8-Formate versprechen enorme Effizienzgewinne beim Training großer Sprachmodelle, bringen jedoch die Herausforderung einer reduzierten numerischen Präzision mit sich. Aktuelle Frameworks umgehen dies mit einer Mischgranularität‑Quantisierung: Aktivierungen werden gruppenweise quantisiert, während Gewichte tensor- oder blockweise behandelt werden. Diese Vorgehensweise führt jedoch zu zusätzlichem Dequantisierungsaufwand und erfordert häufig Just‑in‑Time‑Skalierung, was die erwarteten Leistungsverbesserungen von FP8 zunichte macht.