Forschung arXiv – cs.LG

Neues Verfahren quantisiert große Sprachmodelle ohne Kalibrierungsdaten

In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient quantisiert. Das neue Verfahren nutzt lernbasierte T…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient qu…
  • Das neue Verfahren nutzt lernbasierte Transformationen und adaptive Rundung, um die Fehler, die bei herkömmlichen Rundungs­schemata auftreten, zu reduzieren.
  • Traditionell wird bei der Quantisierung die nächstliegende Quantisierungsstufe gewählt, was bei Ausreißern in den Gewichten zu erheblichen Fehlern führen kann.

In der Forschung zu Post‑Training‑Quantisierung wurde ein innovatives Verfahren vorgestellt, das große Sprachmodelle ohne den Einsatz von Kalibrierungsdaten effizient quantisiert. Das neue Verfahren nutzt lernbasierte Transformationen und adaptive Rundung, um die Fehler, die bei herkömmlichen Rundungs­schemata auftreten, zu reduzieren.

Traditionell wird bei der Quantisierung die nächstliegende Quantisierungsstufe gewählt, was bei Ausreißern in den Gewichten zu erheblichen Fehlern führen kann. Um dem entgegenzuwirken, wurden adaptive Rundungs­methoden, zufällige Rotations­transformationen und Kalibrierungs­daten eingesetzt. Das neue Verfahren eliminiert jedoch die Notwendigkeit von Kalibrierungs­daten, indem es eine geeignete Proxy‑Funktion für den Quantisierungs­verlust entwickelt, die ohne externe Daten auskommt.

Durch strukturierte Matrix‑Transformationen für einzelne Matrizen und duale Matrix‑Transformationen für direkt verknüpfte Gewichte wird die Effizienz der Inferenz beibehalten. In Experimenten mit Gemma‑2‑Modellen zeigte das Verfahren konsistente Verbesserungen gegenüber bestehenden Baselines. Für die 9‑B‑Quantisierung von Gemma‑2 stieg der durchschnittliche Benchmark‑Score von 61,9 auf 62,4 bei 4‑Bit‑Quantisierung und von 52,0 auf 60,6 bei 3‑Bit‑Quantisierung, während die Rechen­belastung weniger als 3 % zunahm.

Das Ergebnis ist ein Verfahren, das die Leistung von GPTQ – einem weit verbreiteten Ansatz, der Kalibrierungsdaten erfordert – erreicht, jedoch ohne diese Daten auskommt. Damit eröffnet es neue Möglichkeiten für die Bereitstellung großer Sprachmodelle in Szenarien, in denen Kalibrierungs­daten nicht verfügbar oder datenschutzrechtlich eingeschränkt sind.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Post‑Training‑Quantisierung
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Kalibrierungsdaten
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Lernbasierte Transformationen
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen