Neue Methode komprimiert große Sprachmodelle mit niedriger Bitzahl
Ein neues Verfahren namens Grouped Lattice Vector Quantization (GLVQ) verspricht, die Speicher- und Rechenanforderungen großer Sprachmodelle drastisch zu senken, ohne die Genauigkeit zu stark zu beeinträchtigen. Durch die Zuordnung von gewichtsspezifischen Lattice-Codebüchern zu Gruppen von Modellgewichten kann GLVQ die Quantisierung auf eine Weise optimieren, die herkömmliche, einheitliche Verfahren übertrifft.