Neues Verfahren quantisiert große Sprachmodelle ohne Kalibrierungsdaten
In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient quantisiert. Das neue Verfahren nutzt lernbasierte T…
- In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient qu…
- Das neue Verfahren nutzt lernbasierte Transformationen und adaptive Rundung, um die Fehler, die bei herkömmlichen Rundungsschemata auftreten, zu reduzieren.
- Traditionell wird bei der Quantisierung die nächstliegende Quantisierungsstufe gewählt, was bei Ausreißern in den Gewichten zu erheblichen Fehlern führen kann.
In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient quantisiert. Das neue Verfahren nutzt lernbasierte Transformationen und adaptive Rundung, um die Fehler, die bei herkömmlichen Rundungsschemata auftreten, zu reduzieren.
Traditionell wird bei der Quantisierung die nächstliegende Quantisierungsstufe gewählt, was bei Ausreißern in den Gewichten zu erheblichen Fehlern führen kann. Um dem entgegenzuwirken, wurden adaptive Rundungsmethoden, zufällige Rotationstransformationen und Kalibrierungsdaten eingesetzt. Das neue Verfahren eliminiert jedoch die Notwendigkeit von Kalibrierungsdaten, indem es eine geeignete Proxy‑Funktion für den Quantisierungsverlust entwickelt, die ohne externe Daten auskommt.
Durch strukturierte Matrix‑Transformationen für einzelne Matrizen und duale Matrix‑Transformationen für direkt verknüpfte Gewichte wird die Effizienz der Inferenz beibehalten. In Experimenten mit Gemma‑2‑Modellen zeigte das Verfahren konsistente Verbesserungen gegenüber bestehenden Baselines. Für die 9‑B‑Quantisierung von Gemma‑2 stieg der durchschnittliche Benchmark‑Score von 61,9 auf 62,4 bei 4‑Bit‑Quantisierung und von 52,0 auf 60,6 bei 3‑Bit‑Quantisierung, während die Rechenbelastung weniger als 3 % zunahm.
Das Ergebnis ist ein Verfahren, das die Leistung von GPTQ – einem weit verbreiteten Ansatz, der Kalibrierungsdaten erfordert – erreicht, jedoch ohne diese Daten auskommt. Damit eröffnet es neue Möglichkeiten für die Bereitstellung großer Sprachmodelle in Szenarien, in denen Kalibrierungsdaten nicht verfügbar oder datenschutzrechtlich eingeschränkt sind.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.