Quantisierungsspezifische Distillation: NVFP4‑Modelle zurück zur BF16‑Genauigkeit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neuer technischer Bericht auf arXiv präsentiert Quantization‑Aware Distillation (QAD) als effektive Lösung, um die Genauigkeit von NVFP4‑quantisierten großen Sprach‑ und Vision‑Language‑Modellen wiederherzustellen. QAD überträgt die Leistung eines Vollpräzisions‑Lehrmodells auf ein quantisiertes Schülermodell mithilfe einer KL‑Divergenz‑Verlustfunktion.

Im Gegensatz zu herkömmlichen Quantization‑Aware‑Training‑Methoden (QAT), die bei mehrstufigen Post‑Training‑Pipelines – wie Supervised Fine‑Tuning, Reinforcement Learning und Modell‑Fusion – oft komplex und instabil sind, zeigt QAD bemerkenswerte Stabilität und Wirksamkeit. Es funktioniert zuverlässig, selbst wenn die Trainingsdaten unvollständig oder von variabler Qualität sind, und ermöglicht so eine Genauigkeitswiederherstellung ohne den Einsatz des gesamten Trainingsdatensatzes.

Die Autoren haben QAD an einer Reihe von Modellen getestet, darunter AceReason Nemotron, Nemotron 3 Nano, Nemotron Nano V2, Nemotron Nano V2 VL (ein Vision‑Language‑Modell) und Llama Nemotron Super v1. In allen Fällen konnte die Genauigkeit nahezu auf das Niveau von BF16 zurückgeführt werden, was die Vielseitigkeit und Robustheit der Methode unterstreicht.

Diese Erkenntnisse markieren einen wichtigen Fortschritt für die Praxis der Modellquantisierung und eröffnen neue Möglichkeiten, hochpräzise KI‑Modelle effizienter und kostengünstiger einzusetzen.

Ähnliche Artikel