BWTA: Binarisierter Transformer mit hoher Genauigkeit und Effizienz
Ultra‑low‑bit‑Quantisierung verspricht enorme Effizienzgewinne für Transformer‑Modelle, doch Genauigkeitsverluste und eingeschränkte GPU‑Unterstützung hemmen ihre breite Anwendung. In der vorliegenden Arbeit wird die Ve…