Forschung
Neue Methode verhindert Selbst‑Jailbreak bei großen Rechenmodellen
Große Rechenmodelle (LRMs) zeigen beeindruckende Fähigkeiten bei komplexen Logikaufgaben, bleiben jedoch anfällig für gefährliche Inhalte u…
arXiv – cs.AI