DartQuant: Schnelle Rotationskalibrierung für die Quantisierung von Sprachmodellen
Quantisierung ist ein entscheidender Schritt, um die Inferenz großer Sprachmodelle zu beschleunigen. Rotationsmatrizen haben sich dabei als besonders wirksam erwiesen, da sie Ausreißer glätten und die Quantisierungsleistung verbessern. Das Problem: ein end‑to‑end‑Feintuning der Rotationsoptimierung ist rechenintensiv und neigt leicht zum Overfitting.