Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations
Die Trainingszeit großer Sprachmodelle wird häufig durch die vielen Matrixmultiplikationen im Transformer begrenzt. Besonders im Feed‑Forward‑Network (FFN) entfällt bis zu 50 % der gesamten Rechenleistung auf diese Oper…