Sherry: 1,25‑Bit‑Ternärquantisierung mit feingranularer Sparsifizierung
Die Verbreitung großer Sprachmodelle auf ressourcenbeschränkten Edge‑Geräten wird zunehmend durch hohe Speicher- und Rechenanforderungen gehemmt. Ternäre Quantisierung, bei der Gewichte auf die Werte –1, 0 und +1 reduzi…