Blockrotation ist der Schlüssel zur MXFP4-Quantisierung
Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte erzielt, doch ihr stetig wachsender Umfang verursacht prohibitive Kosten in Speicher, Rechenleistung und Energie. Post‑Training‑Quantisierung (P…