Quant-Trim: Low-Bit-Deployment auf Edge‑NPU ohne Vendor‑Abhängigkeiten

Quant‑Trim bringt die Low‑Bit‑Quantisierung von Edge‑Acceleratoren auf ein neues Level. Durch einen gezielten Trainingsschritt erzeugt die Methode ein Hardware‑neutrales Modell, das zuverlässig auf unterschiedlichen NPU‑Backends und Präzisionseinstellungen funktioniert – ohne dass Entwickler ihre Modelle neu anpassen oder spezielle Compiler‑Flags setzen müssen.

Der Kern von Quant‑Trim ist die Kombination aus progressiver Fake‑Quantisierung und Reverse‑Pruning. Während die Fake‑Quantisierung das Training an das Integer‑Grid der Zielhardware anpasst, verhindert das Reverse‑Pruning die übermäßige Skalierung, die durch Ausreißer entstehen kann. So bleibt das Modell lernfähig, während gleichzeitig die Genauigkeit bei niedriger Bitbreite erhalten bleibt.

Quant‑Trim ist vollständig agnostisch gegenüber Quantisierungsschemata – egal ob symmetrisch oder asymmetrisch, per Tensor oder per Kanal, INT8 oder INT4. Es erfordert keine vendor‑spezifischen Graph‑Änderungen und eliminiert die Notwendigkeit, für jeden Backend‑Typ ein neues Modell zu trainieren.

In umfangreichen Tests zeigte Quant‑Trim eine signifikante Reduktion der Genauigkeitslücke zwischen Floating‑Point‑ und Low‑Bit‑Modellen. Gleichzeitig sinken die Abhängigkeit von Compiler‑Heuristiken und Kalibrierungsprozessen. Die veröffentlichten Metriken umfassen Genauigkeit, Latenz, Durchsatz, Energieverbrauch pro Inferenz und Kosten, sowohl bei statischer als auch bei dynamischer Aktivierungs‑Skalierung und bei unterschiedlicher Operator‑Abdeckung.

Ähnliche Artikel