FLRQ: Schnellere LLM-Quantisierung durch flexible Low‑Rank‑Sketching
Die neueste Veröffentlichung auf arXiv (2601.05684v1) präsentiert FLRQ, eine innovative Methode zur Quantisierung großer Sprachmodelle. Durch die Kombination von Rank1‑Sketch-basiertem Flexiblen Rang‑Auswahlverfahren (R1‑FLR) und einer iterativen Low‑Rank‑Approximation unter Clipping (BLC) kann FLRQ die optimale Rang‑Konfiguration für jede Schicht bestimmen und gleichzeitig die Speichergröße minimieren.