QMC: Effiziente Edge-Inference für kleine Sprachmodelle mit Outlier‑Quantisierung
Die Ausführung kleiner Sprachmodelle (SLMs) auf Edge‑Geräten ist für Echtzeit‑KI und Datenschutz entscheidend, stößt jedoch an Grenzen bei Speicher, Latenz und Energieverbrauch. Klassische Quantisierung verkleinert Mode…