Suche nach PTQ | meineki.news

MoBiQuant: Token-angepasste, elastische Quantisierung für LLMs

Die Anforderungen an die Laufzeitkomplexität von Sprachmodellen variieren stark zwischen Cloud- und Edge-Geräten. Deshalb wird immer häufig…

arXiv – cs.LG 25.02.2026 05:00

Forschung

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Die Post‑Training‑Quantisierung (PTQ) bleibt ein zentraler Ansatz, um die Speicher‑ und Rechenkosten großer Sprachmodelle drastisch zu senk…

arXiv – cs.LG 23.02.2026 05:00

Forschung

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

Post‑Training‑Quantisierung (PTQ) ist ein entscheidender Schritt für die effiziente Bereitstellung von KI‑Modellen. Auf der Ascend NPU, ein…

arXiv – cs.AI 23.02.2026 05:00

Forschung

TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation

Mit TurboBoA wird die Quantisierung großer Sprachmodelle schneller und genauer, ohne dass Backpropagation nötig ist. Der neue Ansatz kombin…

arXiv – cs.LG 06.02.2026 05:00

Forschung

BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090

Die Ausführung großer Sprachmodelle (LLMs) ist in ressourcenbeschränkten Umgebungen häufig durch Speichergröße und Speicherbandbreite begre…

arXiv – cs.LG 05.02.2026 05:00

Forschung

D²Quant: Präzise Low-Bit-Quantisierung von LLMs ohne Genauigkeitsverlust

Die neuesten Fortschritte in großen Sprachmodellen (LLMs) liefern beeindruckende Leistungen, doch ihre hohen Rechen- und Speicheranforderun…

arXiv – cs.LG 04.02.2026 05:00

Forschung

Verbesserte Post-Training-Quantisierung dank zukünftiger Aktivierungsdaten

Die Kompression großer Sprachmodelle ohne Feinabstimmung ist ein zentrales Thema in der KI-Forschung. Post‑Training‑Quantisierung (PTQ) nut…

arXiv – cs.LG 04.02.2026 05:00

Forschung

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

Die neueste Forschung im Bereich der Post-Training-Quantisierung (PTQ) hat gezeigt, dass Blockrotationen ein vielversprechendes Mittel sind…

arXiv – cs.LG 02.02.2026 05:00

Forschung

Kategorien der Inferenzskalierung für verbesserte LLM-Logik

In den letzten Jahren haben Forscher neue Wege gefunden, die Leistungsfähigkeit großer Sprachmodelle (LLMs) zu steigern, ohne die Modellgrö…

Sebastian Raschka – Ahead of AI 24.01.2026 11:23

Forschung

Quantisierung mit QAT steigert Effizienz von LLMs für komplexes Rechnen

Eine neue Studie von Forschern auf arXiv zeigt, dass quantisierungsbewusstes Training (QAT) die Leistung von Sprachmodellen, die für komple…

arXiv – cs.LG 22.01.2026 05:00

Forschung

Aktivationssensitivität: Das Prinzip für Quantisierung nach Training

In der Welt der großen Sprachmodelle ist die Quantisierung nach dem Training (PTQ) ein entscheidender Schritt, um Modelle effizienter zu ma…

arXiv – cs.LG 21.01.2026 05:00

Forschung

Neue Technik senkt Quantisierungsfehler bei LLMs um bis zu 28,5 %

Post‑Training‑Quantisierung (PTQ) ist ein beliebtes Verfahren, um große Sprachmodelle auf Geräten mit begrenzten Ressourcen einzusetzen. Ei…

arXiv – cs.LG 19.01.2026 05:00

Forschung

Verbesserte Modelloptimierung: Muon-basierte Distillation & Quantisierung für LLMs

Large Language Models (LLMs) haben die Verarbeitung natürlicher Sprache revolutioniert, doch ihre hohe Rechen-, Speicher- und Energieanford…

arXiv – cs.LG 16.01.2026 05:00

Forschung

FLRQ: Schnellere LLM-Quantisierung durch flexible Low‑Rank‑Sketching

Die neueste Veröffentlichung auf arXiv (2601.05684v1) präsentiert FLRQ, eine innovative Methode zur Quantisierung großer Sprachmodelle. Dur…

arXiv – cs.LG 12.01.2026 05:00

Produkt

Beschleunigung von LLM-Inferenz mit AWQ und GPTQ auf Amazon SageMaker

Quantisierte Modelle lassen sich mit nur wenigen Codezeilen nahtlos auf Amazon SageMaker AI einsetzen. In diesem Beitrag erläutern wir, war…

AWS – Machine Learning Blog 09.01.2026 18:09

Forschung

LLMs auf Mobilgeräten: 4‑Bit‑Quantisierung reduziert Modellgröße um 69 %

Large Language Models (LLMs) bieten enorme Möglichkeiten, doch ihre Größe und der hohe Rechenaufwand machen ein direktes Ausführen auf Smar…

arXiv – cs.LG 09.12.2025 05:00

Forschung

Neues Verfahren quantisiert große Sprachmodelle ohne Kalibrierungsdaten

In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von K…

arXiv – cs.LG 26.11.2025 05:00

Forschung

Quantisierung mit Sicherheitsausrichtung: Effizienz trifft Vertrauen bei LLMs

Die gleichzeitige Gewährleistung von Sicherheit und Effizienz stellt bei der Bereitstellung großer Sprachmodelle (LLMs) eine zentrale Herau…

arXiv – cs.AI 12.11.2025 05:00

Forschung

Blockrotation ist der Schlüssel zur MXFP4-Quantisierung

Große Sprachmodelle (LLMs) haben in den letzten Jahren enorme Fortschritte erzielt, doch ihr stetig wachsender Umfang verursacht prohibitiv…

arXiv – cs.LG 07.11.2025 05:00

Forschung

Generative AI hilft Ärzten, Datenüberflutung durch EHR und RPM zu bekämpfen

Eine neue Veröffentlichung auf arXiv (2509.00073v1) bietet einen umfassenden Überblick darüber, wie generative künstliche Intelligenz – ins…

arXiv – cs.LG 03.09.2025 05:00

Forschung

ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise

Die Quantisierung großer Sprachmodelle reduziert die Kosten für deren Einsatz erheblich. Während die nachträgliche Quantisierung (PTQ) wege…

arXiv – cs.LG 03.09.2025 05:00

Finde Modelle, Firmen und Themen

MoBiQuant: Token-angepasste, elastische Quantisierung für LLMs

LATMiX: Lernbare Affine-Transformationen für die Microskalierung von LLMs

Quantisierung von Sprachmodellen auf Ascend NPU: Erfolgreich, aber herausfordernd

TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation

BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090

D²Quant: Präzise Low-Bit-Quantisierung von LLMs ohne Genauigkeitsverlust

Verbesserte Post-Training-Quantisierung dank zukünftiger Aktivierungsdaten

MixQuant: Grenzen der Blockrotationen in der Post-Training-Quantisierung neu definiert

Kategorien der Inferenzskalierung für verbesserte LLM-Logik

Quantisierung mit QAT steigert Effizienz von LLMs für komplexes Rechnen

Aktivationssensitivität: Das Prinzip für Quantisierung nach Training

Neue Technik senkt Quantisierungsfehler bei LLMs um bis zu 28,5 %

Verbesserte Modelloptimierung: Muon-basierte Distillation & Quantisierung für LLMs

FLRQ: Schnellere LLM-Quantisierung durch flexible Low‑Rank‑Sketching

Beschleunigung von LLM-Inferenz mit AWQ und GPTQ auf Amazon SageMaker

LLMs auf Mobilgeräten: 4‑Bit‑Quantisierung reduziert Modellgröße um 69 %

Neues Verfahren quantisiert große Sprachmodelle ohne Kalibrierungsdaten

Quantisierung mit Sicherheitsausrichtung: Effizienz trifft Vertrauen bei LLMs

Blockrotation ist der Schlüssel zur MXFP4-Quantisierung

Generative AI hilft Ärzten, Datenüberflutung durch EHR und RPM zu bekämpfen

ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise

🍪 Cookie-Einstellungen

BPDQ: Quantisierung für Sprachmodelle – 2‑Bit‑Perfektion auf RTX 3090

Neue Technik senkt Quantisierungsfehler bei LLMs um bis zu 28,5 %

LLMs auf Mobilgeräten: 4‑Bit‑Quantisierung reduziert Modellgröße um 69 %