DartQuant: Schnelle Rotationskalibrierung für die Quantisierung von Sprachmodellen
Quantisierung ist ein entscheidender Schritt, um die Inferenz großer Sprachmodelle zu beschleunigen. Rotationsmatrizen haben sich dabei als besonders wirksam erwiesen, da sie Ausreißer glätten und die Quantisierungsleis…