Forschung
Schnelle NF4‑Dequantisierung für große Sprachmodelle – 2,2× schnellere Kernel
Moderne Sprachmodelle überschreiten die Speichergrenzen einzelner GPU‑Geräte, sodass Quantisierung unumgänglich wird. Die 4‑Bit‑NormalFloat…
arXiv – cs.LG