Forschung
BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090
Die Ausführung großer Sprachmodelle (LLMs) ist in ressourcenbeschränkten Umgebungen häufig durch Speichergröße und Speicherbandbreite begre…
arXiv – cs.LG