Sherry: 1,25‑Bit‑Ternärquantisierung mit feingranularer Sparsifizierung
Die Verbreitung großer Sprachmodelle auf ressourcenbeschränkten Edge‑Geräten wird zunehmend durch hohe Speicher- und Rechenanforderungen gehemmt. Ternäre Quantisierung, bei der Gewichte auf die Werte –1, 0 und +1 reduziert werden, bietet einen vielversprechenden Ansatz, doch bisherige Implementierungen stoßen an die Grenzen handelsüblicher Hardware. Entweder werden 2‑Bit‑ausgerichtete Packungen verwendet, die zu erheblichem Bit‑Verlust führen, oder 1,67‑Bit‑irreguläre Packungen, die die Inferenzgeschwindigkeit beeinträchtigen.