Forschung
Sherry: 1,25‑Bit‑Ternärquantisierung mit feingranularer Sparsifizierung
Die Verbreitung großer Sprachmodelle auf ressourcenbeschränkten Edge‑Geräten wird zunehmend durch hohe Speicher- und Rechenanforderungen ge…
arXiv – cs.LG