Quantisierung mit Sicherheitsausrichtung: Effizienz trifft Vertrauen bei LLMs
Die gleichzeitige Gewährleistung von Sicherheit und Effizienz stellt bei der Bereitstellung großer Sprachmodelle (LLMs) eine zentrale Herausforderung dar. Während die Modelle darauf trainiert werden, menschliche Sicherheitsrichtlinien einzuhalten, wird anschließend eine Post‑Training‑Quantisierung (PTQ) eingesetzt, um die Rechenkosten zu senken. Doch die beiden Ziele kollidieren häufig: Eine reine Optimierung der Perplexität kann die Sicherheitsausrichtung des Modells schwächen, sodass ein Modell zwar niedrigere Perplexität aufweist, aber die Sicherheitsrichtlinien deutlich schlechter befolgt.
Um dieses Problem zu lösen, stellt die neue Arbeit „Alignment‑Aware Quantization“ (AAQ) einen Ansatz vor, der einen Alignment‑Preserving Contrastive (APC) Loss in die PTQ‑Pipeline integriert. Im Gegensatz zu herkömmlichen Rekonstruktionsverlusten sorgt der APC‑Loss dafür, dass das quantisierte Modell das sichere, instruktionsgetunte Modell nachahmt und gleichzeitig vom unaligned, vortrainierten Gegenstück abweicht. Dadurch bleibt die Sicherheitsausrichtung erhalten, ohne dass spezielle Sicherheits‑Kalibrierungsdatensätze benötigt werden.
AAQ ist mit gängigen PTQ‑Techniken kompatibel und ermöglicht robuste 4‑Bit‑Quantisierung (W4A4) für verschiedene Modellfamilien wie LLaMA, Qwen und Mistral. Die Methode bewahrt die Sicherheitsstandards, wo frühere Verfahren versagen, und demonstriert damit, dass Effizienz und Vertrauenswürdigkeit in LLMs gleichzeitig erreicht werden können.
Die vorgestellte Technik markiert einen wichtigen Schritt zur Schaffung von LLMs, die nicht nur ressourcenschonend, sondern auch zuverlässig und sicher im Einsatz sind.