Prefix Probing: Leichtgewichtige Erkennung schädlicher Inhalte
Große Sprachmodelle stehen häufig vor einem dreifachen Dilemma: Genauigkeit, Reaktionszeit und Kosten. Ein neues Verfahren namens Prefix Probing löst dieses Problem, indem es die Wahrscheinlichkeit von „Zustimmung/Ausführung“ gegen „Ablehnung/Sicherheit“ bei kurzen Präfixen vergleicht und dabei nur einen einzigen Log‑Wahrscheinlichkeitswert berechnet.