Forschung
DartQuant: Schnelle Rotationskalibrierung für die Quantisierung von Sprachmodellen
Quantisierung ist ein entscheidender Schritt, um die Inferenz großer Sprachmodelle zu beschleunigen. Rotationsmatrizen haben sich dabei als…
arXiv – cs.LG