Sherry: 1,25‑Bit‑Ternärquantisierung mit feingranularer Sparsifizierung

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die Verbreitung großer Sprachmodelle auf ressourcenbeschränkten Edge‑Geräten wird zunehmend durch hohe Speicher- und Rechenanforderungen gehemmt. Ternäre Quantisierung, bei der Gewichte auf die Werte –1, 0 und +1 reduziert werden, bietet einen vielversprechenden Ansatz, doch bisherige Implementierungen stoßen an die Grenzen handelsüblicher Hardware. Entweder werden 2‑Bit‑ausgerichtete Packungen verwendet, die zu erheblichem Bit‑Verlust führen, oder 1,67‑Bit‑irreguläre Packungen, die die Inferenzgeschwindigkeit beeinträchtigen.

Sherry löst dieses Dilemma, indem es eine 3:4‑feingranulare Sparsität einführt. Dabei werden vier Gewichte in fünf Bits gepackt, was eine regelmäßige 1,25‑Bit‑Breite erzeugt und die Ausrichtung auf Potenzen von zwei wiederherstellt. Diese Technik reduziert nicht nur den Speicherbedarf, sondern verbessert auch die Ausführungsgeschwindigkeit, weil die Packungen hardwarefreundlich sind.

Ein weiteres Problem bei sparsamen ternären Trainingsverfahren ist das „Weight‑Trapping“, bei dem die Modellrepräsentation zusammenbricht. Sherry begegnet diesem Phänomen mit Arenas, einem annealing‑basierten Residual‑Synapsen‑Mechanismus, der die Vielfalt der Gewichte während des Trainings erhält und so die Modellleistung stabil hält.

Experimentelle Tests auf LLaMA‑3.2 über fünf Benchmarks zeigen, dass Sherry die führende ternäre Leistung erreicht, gleichzeitig die Modellgröße reduziert und auf einem Intel i7‑14700HX‑CPU 25 % weniger Bits sowie 10 % schnellere Inferenz liefert – ohne Genauigkeitsverlust bei einem 1‑Billion‑Parameter‑Modell.

Der Quellcode ist unter https://github.com/Tencent/AngelSlim verfügbar.

Ähnliche Artikel