Verbesserte Post-Training-Quantisierung dank zukünftiger Aktivierungsdaten
Die Kompression großer Sprachmodelle ohne Feinabstimmung ist ein zentrales Thema in der KI-Forschung. Post‑Training‑Quantisierung (PTQ) nutzt dabei die Aktivierungen einer Schicht, um Quantisierungs‑Hyperparameter wie S…