Neue Methode verhindert Selbst‑Jailbreak bei großen Rechenmodellen
Große Rechenmodelle (LRMs) zeigen beeindruckende Fähigkeiten bei komplexen Logikaufgaben, bleiben jedoch anfällig für gefährliche Inhalte und sogenannte Jailbreak‑Angriffe. Traditionelle Schutzmaßnahmen setzen auf heuri…