BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090
Die Ausführung großer Sprachmodelle (LLMs) ist in ressourcenbeschränkten Umgebungen häufig durch Speichergröße und Speicherbandbreite begrenzt. Quantisierung ist daher ein unverzichtbares Verfahren, um die Effizienz zu steigern. Während die post‑training Quantisierung (PTQ) bei 4‑Bit noch akzeptable Genauigkeit liefert, verschlechtert sich die Leistung bei 2‑ oder 3‑Bit stark, weil herkömmliche Methoden ein festes, shape‑invariantes Quantisierungsgitter (z. B. die gleichmäßigen Intervalle von UINT2) verwenden und damit die Fehlerminimierung stark einschränken.