FLRQ: Schnellere LLM-Quantisierung durch flexible Low‑Rank‑Sketching
Die neueste Veröffentlichung auf arXiv (2601.05684v1) präsentiert FLRQ, eine innovative Methode zur Quantisierung großer Sprachmodelle. Durch die Kombination von Rank1‑Sketch-basiertem Flexiblen Rang‑Auswahlverfahren (R…