Quantisierung mit Sicherheitsausrichtung: Effizienz trifft Vertrauen bei LLMs
Die gleichzeitige Gewährleistung von Sicherheit und Effizienz stellt bei der Bereitstellung großer Sprachmodelle (LLMs) eine zentrale Herausforderung dar. Während die Modelle darauf trainiert werden, menschliche Sicherheitsrichtlinien einzuhalten, wird anschließend eine Post‑Training‑Quantisierung (PTQ) eingesetzt, um die Rechenkosten zu senken. Doch die beiden Ziele kollidieren häufig: Eine reine Optimierung der Perplexität kann die Sicherheitsausrichtung des Modells schwächen, sodass ein Modell zwar niedrigere Perplexität aufweist, aber die Sicherheitsrichtlinien deutlich schlechter befolgt.