RaBiT: Residual-Aware Binarization Training für präzise und effiziente LLMs
Die effiziente Nutzung großer Sprachmodelle erfordert eine extreme Quantisierung, die oft einen harten Kompromiss zwischen Bit‑Effizienz und Leistung bedeutet. Residual‑Binarisierung, bei der binäre (±1) Schichten gestapelt werden, bietet hardwarefreundliche, matmul‑freie Inferenz, leidet jedoch unter einer kritischen Fehlfunktion – der sogenannten Inter‑Path‑Adaptation. Dabei lernen parallele binäre Pfade redundante Merkmale, was die Fehler‑Kompensationsstruktur schwächt und die Ausdruckskraft des Modells einschränkt.