Neues Verfahren quantisiert große Sprachmodelle ohne Kalibrierungsdaten

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient quantisiert. Das neue Verfahren nutzt lernbasierte Transformationen und adaptive Rundung, um die Fehler, die bei herkömmlichen Rundungs­schemata auftreten, zu reduzieren.

Traditionell wird bei der Quantisierung die nächstliegende Quantisierungsstufe gewählt, was bei Ausreißern in den Gewichten zu erheblichen Fehlern führen kann. Um dem entgegenzuwirken, wurden adaptive Rundungs­methoden, zufällige Rotations­transformationen und Kalibrierungs­daten eingesetzt. Das neue Verfahren eliminiert jedoch die Notwendigkeit von Kalibrierungs­daten, indem es eine geeignete Proxy‑Funktion für den Quantisierungs­verlust entwickelt, die ohne externe Daten auskommt.

Durch strukturierte Matrix‑Transformationen für einzelne Matrizen und duale Matrix‑Transformationen für direkt verknüpfte Gewichte wird die Effizienz der Inferenz beibehalten. In Experimenten mit Gemma‑2‑Modellen zeigte das Verfahren konsistente Verbesserungen gegenüber bestehenden Baselines. Für die 9‑B‑Quantisierung von Gemma‑2 stieg der durchschnittliche Benchmark‑Score von 61,9 auf 62,4 bei 4‑Bit‑Quantisierung und von 52,0 auf 60,6 bei 3‑Bit‑Quantisierung, während die Rechen­belastung weniger als 3 % zunahm.

Das Ergebnis ist ein Verfahren, das die Leistung von GPTQ – einem weit verbreiteten Ansatz, der Kalibrierungsdaten erfordert – erreicht, jedoch ohne diese Daten auskommt. Damit eröffnet es neue Möglichkeiten für die Bereitstellung großer Sprachmodelle in Szenarien, in denen Kalibrierungs­daten nicht verfügbar oder datenschutzrechtlich eingeschränkt sind.

Ähnliche Artikel