Neue Test‑Time‑Quantisierung beschleunigt LLM‑Inference ohne Retraining
Die enorme Rechenlast großer Basismodelle hat die Forschung zu neuen Kompressionstechniken angetrieben. Dabei setzen aktuelle Methoden auf aktivitätsbasierte Quantisierung ohne erneutes Training, doch sie sind stark auf…