MOSS: Effizientes FP8-Training für große Sprachmodelle
FP8-Formate versprechen enorme Effizienzgewinne beim Training großer Sprachmodelle, bringen jedoch die Herausforderung einer reduzierten numerischen Präzision mit sich. Aktuelle Frameworks umgehen dies mit einer Mischgr…