Quantisierungsspezifische Distillation: NVFP4‑Modelle zurück zur BF16‑Genauigkeit
Ein neuer technischer Bericht auf arXiv präsentiert Quantization‑Aware Distillation (QAD) als effektive Lösung, um die Genauigkeit von NVFP4‑quantisierten großen Sprach‑ und Vision‑Language‑Modellen wiederherzustellen…