RaBiT: Residual-Aware Binarization Training für präzise und effiziente LLMs
Die effiziente Nutzung großer Sprachmodelle erfordert eine extreme Quantisierung, die oft einen harten Kompromiss zwischen Bit‑Effizienz und Leistung bedeutet. Residual‑Binarisierung, bei der binäre (±1) Schichten gesta…