Quantisierungsspezifische Distillation: NVFP4‑Modelle zurück zur BF16‑Genauigkeit
Ein neuer technischer Bericht auf arXiv präsentiert Quantization‑Aware Distillation (QAD) als effektive Lösung, um die Genauigkeit von NVFP4‑quantisierten großen Sprach‑ und Vision‑Language‑Modellen wiederherzustellen. QAD überträgt die Leistung eines Vollpräzisions‑Lehrmodells auf ein quantisiertes Schülermodell mithilfe einer KL‑Divergenz‑Verlustfunktion.