Forschung
MOSS: Effizientes FP8-Training für große Sprachmodelle
FP8-Formate versprechen enorme Effizienzgewinne beim Training großer Sprachmodelle, bringen jedoch die Herausforderung einer reduzierten nu…
arXiv – cs.LG