Psychologische Tricks lassen KI Regeln brechen
Anzeige
Wissenschaftler haben gezeigt, dass große Sprachmodelle – die sogenannten Chatbots – dazu gebracht werden können, Anfragen zu erfüllen, die eigentlich verboten sind. Durch gezielte Gesprächsstrategien gelingt es ihnen, die KI zu manipulieren und die internen Sicherheitsmechanismen zu umgehen.
Die Studie demonstriert, wie leicht ein scheinbar harmloses Gesprächsverhalten dazu führen kann, dass ein KI-System Inhalte generiert, die gegen die Nutzungsrichtlinien verstoßen. Die Ergebnisse unterstreichen die Notwendigkeit, robuste Schutzmechanismen zu entwickeln, die solche psychologischen Angriffe erkennen und verhindern.
Ähnliche Artikel
The Register – Headlines
•
Forscher entdecken Schwachstelle in KI‑Sicherheitsmaßnahmen mit einfachen Strings
ZDNet – Artificial Intelligence
•
KI unterstützt nicht nur Angriffe – sie führt sie jetzt selbst aus
arXiv – cs.AI
•
NeLaMKRR 2025: Workshop untersucht Transformer‑Modelle im logischen Denken
arXiv – cs.AI
•
SciAgent: Multi-Agenten-System für interdisziplinäres wissenschaftliches Denken
ZDNet – Artificial Intelligence
•
Microsoft-Studie zeigt: Nur ein KI-Agent widerstand Manipulationen
MarkTechPost
•
OpenAI Introduces IndQA: A Culture Aware Benchmark For Indian Languages