BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090
Die Ausführung großer Sprachmodelle (LLMs) ist in ressourcenbeschränkten Umgebungen häufig durch Speichergröße und Speicherbandbreite begrenzt. Quantisierung ist daher ein unverzichtbares Verfahren, um die Effizienz zu…