Quantisierung mit QAT steigert Effizienz von LLMs für komplexes Rechnen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie von Forschern auf arXiv zeigt, dass quantisierungsbewusstes Training (QAT) die Leistung von Sprachmodellen, die für komplexe Aufgaben wie Programmieren und Mathematik ausgelegt sind, deutlich verbessert. Während herkömmliche Post‑Training‑Quantisierung (PTQ) oft zu starken Genauigkeitsverlusten führt, liefert QAT robuste Ergebnisse, selbst bei sehr niedrigen Bit‑Raten.

Die Autoren identifizierten vier zentrale Erkenntnisse: Erstens ist Knowledge Distillation ein zuverlässiges Ziel für Reasoning‑Modelle, egal ob sie mit klassischem Supervised Fine‑Tuning oder Reinforcement Learning (RL) trainiert werden. Zweitens fungiert PTQ als starkes Ausgangsmodell für QAT, wodurch die Genauigkeit gesteigert und gleichzeitig die Trainingskosten reduziert werden. Drittens bleibt RL bei quantisierten Modellen praktikabel, wenn ein guter „Cold‑Start“ vorhanden ist, und führt zu zusätzlichen Leistungsgewinnen. Viertens beschleunigt die Abstimmung des PTQ‑Kalibrierungsbereichs auf den QAT‑Trainingsbereich die Konvergenz und verbessert häufig die Endgenauigkeit.

Auf Basis dieser Ergebnisse entwickelte das Team einen optimierten Workflow namens Reasoning‑QAT. In Tests mit verschiedenen LLM‑Backbones und Reasoning‑Datensätzen übertrifft dieser Ansatz sämtliche aktuelle PTQ‑Methoden. Besonders beeindruckend ist die Leistung bei Qwen3‑0.6B, wo Reasoning‑QAT die Genauigkeit auf MATH‑500 um 44,53 % gegenüber GPTQ steigert und die Performance im 2‑Bit‑Modus vollständig wiederherstellt.

Ähnliche Artikel