BayesQ: Bayesian-Quantisierung Unsicherheitsorientierung optimiert Post-Training
Mit dem neuen Framework BayesQ wird die Post‑Training‑Quantisierung von neuronalen Netzen auf ein völlig neues Niveau gehoben. BayesQ nutzt eine leichtgewichtige Gaußsche Posteriorverteilung über die Gewichte – standardmäßig eine diagonale Laplace‑Approximation, optional erweitert um K‑FAC oder Low‑Rank‑Methoden – und wendet eine Whitening‑Transformation an, die die Posterior‑Kovarianz berücksichtigt. Dadurch kann das Modell die Unsicherheit in jedem Gewicht exakt erfassen und in die Quantisierung einfließen lassen.
Das Verfahren erstellt anschließend Codebooks, die den posterior expected loss minimieren, und verteilt die Bits über die Gewichte mittels eines greedy Knapsack‑Algorithmus. Dieser Ansatz maximiert die erwartete Verlustreduktion pro Bit unter einem globalen Budget und ermöglicht eine effiziente Mixed‑Precision‑Zuweisung. Für skalare Quantisierer liefert BayesQ geschlossene Formeln für den posterior expected MSE, während task‑spezifische Proxy‑Messgrößen durch kurze Monte‑Carlo‑Simulationen auf einer kleinen Kalibrierungsmenge behandelt werden. Optional kann ein distillation‑basierter, nur Kalibrierungs‑Rechenaufwand, die Quantisierung mit einem posterior predictive Teacher abstimmen.
In praktischen Tests übertrifft BayesQ etablierte PTQ‑Baselines bei durchschnittlichen Bits pro Gewicht von 3.0, 3.5 und 4.0 deutlich. Auf ResNet‑50 (ImageNet) erzielt es im Vergleich zu GPTQ einen Gewinn von +1,5 / +0,7 / +0,3 % in der Top‑1‑Genauigkeit, während BERT‑Base (GLUE) um +1,1 / +0,4 / +0,2 GLUE‑Punkte besser abschneidet. Der einmalige Pre‑Processing‑Aufwand ist vergleichbar mit einem GPTQ‑Durchlauf, sodass BayesQ eine praktikable, risiko‑bewusste Quantisierungslösung für Low‑Bit‑Modelle bietet.
BayesQ stellt damit einen bedeutenden Fortschritt dar, indem es Unsicherheit als zentrales Element in die Quantisierung einbindet und damit die klassische Low‑Bit‑Quantisierung in ein robustes, risiko‑sensibles Post‑Training‑Framework überführt. Für Entwickler und Forscher bedeutet dies, dass Modelle mit weniger Bits effizienter und zuverlässiger eingesetzt werden können, ohne auf die Genauigkeit zu verzichten.