Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Quantisierung”
Forschung

<h1>1-Bit Wunder: K-Means Quantisierung steigert QAT-Leistung bei LLMs</h1> <p>Eine neue Studie aus dem arXiv-Repository zeigt, dass Quantization‑Aware Training (QAT) die Speicher‑ und Rechenkosten von großen Sprachmodellen drastisch senken kann, ohne die Leistung zu stark zu beeinträchtigen. Durch gezielte Experimente im Low‑Bit‑Bereich wird deutlich, wie sich unterschiedliche Quantisierungsformate auf die Effizienz und Genauigkeit auswirken.</p> <p>Traditionell bleibt die Wahl des optimalen Quantisierungs

arXiv – cs.LG
Forschung

<h1>HQP: Hybrid-Quantisierung & Pruning für Ultra‑Low‑Latency Edge AI</h1> <p>Die steigende Nachfrage nach hochpräziser, Echtzeit‑Inference in verteilten Edge‑Cloud‑Umgebungen zwingt Entwickler zu aggressiven Optimierungen, um die strengen Latenz‑ und Energiegrenzen zu überwinden. In diesem Kontext präsentiert der neue HQP‑Framework einen integrierten Ansatz, der Hybrid‑Quantisierung und strukturiertes Pruning kombiniert, um Modelle gleichzeitig zu beschleunigen und Qualitätsstandards einzuhalten.</p> <p>De

arXiv – cs.AI