Neues CPT‑Filtering: Tokenizer‑basierte Abwehr gegen verschlüsselte Prompts
Ein neues Verfahren namens CPT‑Filtering verspricht, die Schwachstellen großer Sprachmodelle gegen sogenannte Jailbreak‑Angriffe zu schließen. Dabei werden verschlüsselte oder codierte Eingaben erkannt, die üblicherweise die Sicherheitsmechanismen umgehen.