Verbesserte Post-Training-Quantisierung dank zukünftiger Aktivierungsdaten
Die Kompression großer Sprachmodelle ohne Feinabstimmung ist ein zentrales Thema in der KI-Forschung. Post‑Training‑Quantisierung (PTQ) nutzt dabei die Aktivierungen einer Schicht, um Quantisierungs‑Hyperparameter wie Skalierungsfaktoren festzulegen. Obwohl PTQ effizient ist, führt die ausschließliche Betrachtung aktueller Aktivierungen häufig zu Quantisierungs‑Bias und Fehlerakkumulation, besonders wenn die Kalibrierungsdaten verzerrt sind.