Schnelle NF4‑Dequantisierung für große Sprachmodelle – 2,2× schnellere Kernel
Moderne Sprachmodelle überschreiten die Speichergrenzen einzelner GPU‑Geräte, sodass Quantisierung unumgänglich wird. Die 4‑Bit‑NormalFloat‑Quantisierung (NF4) reduziert den Speicherbedarf um das Vierfache, doch die Rüc…