XQuant reduziert Speicherbedarf bei LLM-Infereenzen um bis zu 10‑fach
Die neueste Veröffentlichung auf arXiv (2508.10395v1) stellt XQuant vor – ein innovatives Verfahren, das die Speicherlast bei der Inferenz großer Sprachmodelle drastisch senkt. Durch die Quantisierung der Eingabeaktiv…