Forschung
LLM‑Sicherheit: Aktivierungsentanglement erkennt versteckte Jailbreaks
Moderne Sprachmodelle bleiben anfällig für raffinierte Jailbreak‑Prompts, die flüssig und semantisch kohärent formuliert sind. Besonders pr…
arXiv – cs.AI