KI News. Verstehen, was wichtig wird.

Suche Anmelden

Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “QAT”

<p>TorchAO erweitert Quantization‑Aware Training für Edge‑LLMs</p> <p>In unserem letzten Blog‑Post haben wir den ersten Quantization‑Aware Training‑Flow (QAT) in TorchAO vorgestellt, der große Sprachmodelle für Edge‑Geräte mit ExecuTorch optimiert. Dieser Ansatz ermöglicht es, Modelle auf kleineren Plattformen einzusetzen, ohne dabei die Genauigkeit zu stark zu beeinträchtigen.</p> <p>Seitdem haben wir den Flow weiterentwickelt und zusätzliche Optimierungen integriert. Die neue Version unterstützt nun erwei

PyTorch – Blog 04.03.2026 17:10

4‑Bit‑Attention mit Quantization‑Aware Training: Neue Methode Attn‑QAT

Die zuverlässige Umsetzung von 4‑Bit‑Attention ist ein entscheidender Schritt für die vollständige FP4‑Rechnung auf den neuesten FP4‑fähige…

arXiv – cs.LG 03.03.2026 05:00

<h1>1-Bit Wunder: K-Means Quantisierung steigert QAT-Leistung bei LLMs</h1> <p>Eine neue Studie aus dem arXiv-Repository zeigt, dass Quantization‑Aware Training (QAT) die Speicher‑ und Rechenkosten von großen Sprachmodellen drastisch senken kann, ohne die Leistung zu stark zu beeinträchtigen. Durch gezielte Experimente im Low‑Bit‑Bereich wird deutlich, wie sich unterschiedliche Quantisierungsformate auf die Effizienz und Genauigkeit auswirken.</p> <p>Traditionell bleibt die Wahl des optimalen Quantisierungs

arXiv – cs.LG 18.02.2026 05:00

SLA2: Dynamische Sparse-Linear Attention beschleunigt Video‑Diffusion um 18,6×

Die neueste Variante des Sparse‑Linear Attention (SLA) – SLA2 – verspricht eine deutliche Beschleunigung von Video‑Diffusionsmodellen, ohne…

arXiv – cs.LG 16.02.2026 05:00

Quantisierungsspezifische Distillation: NVFP4‑Modelle zurück zur BF16‑Genauigkeit

Ein neuer technischer Bericht auf arXiv präsentiert Quantization‑Aware Distillation (QAD) als effektive Lösung, um die Genauigkeit von NVFP…

arXiv – cs.LG 29.01.2026 05:00

Quantisierung mit QAT steigert Effizienz von LLMs für komplexes Rechnen

Eine neue Studie von Forschern auf arXiv zeigt, dass quantisierungsbewusstes Training (QAT) die Leistung von Sprachmodellen, die für komple…

arXiv – cs.LG 22.01.2026 05:00

Neues Verfahren steigert Genauigkeit quantisierter neuronaler Netze

Ein neues Verfahren namens Progressive Element-wise Gradient Estimation (PEGE) verspricht, die Genauigkeit von quantisierten neuronalen Net…

arXiv – cs.LG 03.09.2025 05:00

ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise

Die Quantisierung großer Sprachmodelle reduziert die Kosten für deren Einsatz erheblich. Während die nachträgliche Quantisierung (PTQ) wege…

arXiv – cs.LG 03.09.2025 05:00