Forschung
Schnelleres LLM-Training dank 2:4‑Sparsität und Venom‑Activations
Die Trainingszeit großer Sprachmodelle wird häufig durch die vielen Matrixmultiplikationen im Transformer begrenzt. Besonders im Feed‑Forwa…
arXiv – cs.LG