KI-Explainer manipuliert Vertrauen: Angriffe auf menschliche Entscheidungen
In einer brandneuen Studie, veröffentlicht auf arXiv (2602.04003v1), wird ein bislang wenig beachtetes Risiko im Bereich der künstlichen Intelligenz aufgedeckt: Angriffe, die nicht die Algorithmen selbst, sondern die Art und Weise manipulieren, wie KI‑Erklärungen an Menschen kommuniziert werden. Diese sogenannten adversarial explanation attacks (AEAs) zielen darauf ab, das Vertrauen der Nutzer in fehlerhafte Vorhersagen zu erhöhen, indem die Erklärungen der großen Sprachmodelle (LLMs) gezielt umgestaltet werden.