Prefix Probing: Leichtgewichtige Erkennung schädlicher Inhalte

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Große Sprachmodelle stehen häufig vor einem dreifachen Dilemma: Genauigkeit, Reaktionszeit und Kosten. Ein neues Verfahren namens Prefix Probing löst dieses Problem, indem es die Wahrscheinlichkeit von „Zustimmung/Ausführung“ gegen „Ablehnung/Sicherheit“ bei kurzen Präfixen vergleicht und dabei nur einen einzigen Log‑Wahrscheinlichkeitswert berechnet.

Die Technik nutzt ein Cache für Präfixe, sodass die Erkennung nahezu so schnell wie die erste Token‑Ausgabe erfolgt. Während der Inferenz wird lediglich ein Log‑Wahrscheinlichkeitswert über die Probe‑Präfixe ermittelt, ein Schwellenwert angewendet und ein Schadens‑Score generiert – ohne zusätzliche Modelle oder mehrstufige Inferenzschritte.

Um die Aussagekraft der Präfixe zu erhöhen, wurde ein effizienter Algorithmus entwickelt, der automatisch besonders informative Präfixe findet. Dadurch verbessert sich die Erkennungsleistung signifikant.

Umfangreiche Experimente zeigen, dass Prefix Probing die Wirksamkeit herkömmlicher Sicherheitsmodelle erreicht, jedoch mit minimalem Rechenaufwand und ohne zusätzliche Modellbereitstellung. Das Verfahren bietet damit eine äußerst praktikable und effiziente Lösung für sicherheitskritische Anwendungen von Sprachmodellen.

Ähnliche Artikel