SpecQuant: Ultra‑Low‑Bit‑Quantisierung von LLMs mit Fourier‑Trunkierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die rasante Entwicklung präziser Open‑Source‑Large‑Language‑Models hat die Nachfrage nach fortschrittlichen Quantisierungsmethoden für den Einsatz auf Endgeräten stark erhöht. In der neuesten Veröffentlichung von SpecQuant wird das Problem der extremen Kompression von LLMs – sowohl bei Aktivierungen als auch bei Gewichten – aus einer Fourier‑Frequenz‑Domänenperspektive neu beleuchtet.

SpecQuant besteht aus zwei aufeinanderfolgenden Schritten. Zunächst werden Aktivierungs‑Ausreißer geglättet und in die Gewichtsmatrix übertragen, um die nachfolgende Quantisierung zu vereinfachen. Im zweiten Schritt erfolgt eine kanalspezifische, low‑frequency Fourier‑Trunkierung, die hochfrequente Komponenten abschneidet, während die wesentliche Signalenergie erhalten bleibt. Dieses Vorgehen basiert auf der Erkenntnis, dass der Großteil der Gewichtenergie in niedrigen Frequenzen konzentriert ist und mit minimalem Einfluss auf die Modellgenauigkeit beibehalten werden kann.

Ein leichtgewichtiges Trunkierungsmodul ermöglicht die Laufzeit‑Anpassung der Schwellenwerte anhand der Kanalcharakteristika. Auf dem LLaMA‑3 8B Modell erreicht SpecQuant eine 4‑Bit‑Quantisierung für Gewichte und Aktivierungen, wobei die Lücke im Zero‑Shot‑Accuracy nur 1,5 % gegenüber der Vollpräzision beträgt. Gleichzeitig werden die Inferenzzeiten verdoppelt und der Speicherbedarf um das Dreifache reduziert.

Ähnliche Artikel