Forschung
Sicherheitsprüfungen erkennen Lügner, aber nicht Fanatiker
Aktivierungsbasierte Prüfungen gelten als vielversprechende Methode, um KI‑Systeme aufzuspüren, die ihre wahren Ziele verschleiern. Sie arb…
arXiv – cs.AI