Neue Methode verhindert Selbst‑Jailbreak bei großen Rechenmodellen
Große Rechenmodelle (LRMs) zeigen beeindruckende Fähigkeiten bei komplexen Logikaufgaben, bleiben jedoch anfällig für gefährliche Inhalte und sogenannte Jailbreak‑Angriffe. Traditionelle Schutzmaßnahmen setzen auf heuristische Sicherheitsimpulse während des Trainings, was die Rechenleistung oft einschränkt und das Gleichgewicht zwischen Sicherheit und Logik verfehlt.