Passwortgesteuerte Abschaltprotokolle sichern KI-Agenten
In einer neuen Studie von Forschern der arXiv-Community wird ein Konzept vorgestellt, das es KI-Agenten ermöglicht, bei Eingabe eines geheimen Passworts sofort abgeschaltet zu werden. Das Ziel ist, misslungene Ausrichtu…