Forschung
MoBiQuant: Token-angepasste, elastische Quantisierung für LLMs
Die Anforderungen an die Laufzeitkomplexität von Sprachmodellen variieren stark zwischen Cloud- und Edge-Geräten. Deshalb wird immer häufig…
arXiv – cs.LG