FLRQ: Schnellere LLM-Quantisierung durch flexible Low‑Rank‑Sketching

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neueste Veröffentlichung auf arXiv (2601.05684v1) präsentiert FLRQ, eine innovative Methode zur Quantisierung großer Sprachmodelle. Durch die Kombination von Rank1‑Sketch-basiertem Flexiblen Rang‑Auswahlverfahren (R1‑FLR) und einer iterativen Low‑Rank‑Approximation unter Clipping (BLC) kann FLRQ die optimale Rang‑Konfiguration für jede Schicht bestimmen und gleichzeitig die Speichergröße minimieren.

Traditionelle Post‑Training‑Quantisierung (PTQ) reduziert zwar Modellgröße und beschleunigt Inferenz, stößt jedoch bei bestehenden Low‑Rank‑Ansätzen an Grenzen. Diese erfordern aufwändige Feinabstimmungen, um einen Kompromissrang für unterschiedliche Daten und Schichten zu finden, und setzen auf SVD‑basierte Approximationen, die zusätzlichen Rechenaufwand verursachen.

FLRQ analysiert zunächst die Effektivität von Low‑Rank‑Approximationen in verschiedenen Schichten repräsentativer Modelle. R1‑FLR nutzt eine R1‑Sketch‑Projection mit Gauß‑Projektion, um schnell outlier‑bewusste Ränge zu extrahieren. Anschließend minimiert BLC den Quantisierungsfehler unter Skalierung und Clipping durch einen iterativen Ansatz.

In umfangreichen Experimenten übertrifft FLRQ bestehende Verfahren sowohl in Quantisierungsqualität als auch in Algorithmus‑Effizienz. Die Methode bietet damit einen vielversprechenden Weg, große Sprachmodelle kompakter und schneller zu machen, ohne die Genauigkeit zu gefährden.

Ähnliche Artikel