ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise
Die Quantisierung großer Sprachmodelle reduziert die Kosten für deren Einsatz erheblich. Während die nachträgliche Quantisierung (PTQ) wegen ihrer Effizienz beliebt ist, leiden Low‑Bit‑PTQ‑Methoden häufig unter Genauigkeitsverlusten. Diese Probleme entstehen, weil die schichtweise Optimierung Fehler kumuliert und die lokalen Rekonstruktionsziele nicht mit der Endleistung übereinstimmen.