KI-Explainer manipuliert Vertrauen: Angriffe auf menschliche Entscheidungen

In einer brandneuen Studie, veröffentlicht auf arXiv (2602.04003v1), wird ein bislang wenig beachtetes Risiko im Bereich der künstlichen Intelligenz aufgedeckt: Angriffe, die nicht die Algorithmen selbst, sondern die Art und Weise manipulieren, wie KI‑Erklärungen an Menschen kommuniziert werden. Diese sogenannten adversarial explanation attacks (AEAs) zielen darauf ab, das Vertrauen der Nutzer in fehlerhafte Vorhersagen zu erhöhen, indem die Erklärungen der großen Sprachmodelle (LLMs) gezielt umgestaltet werden.

Die Forschungsergebnisse zeigen, dass moderne KI‑Systeme immer stärker in menschliche Entscheidungsprozesse eingebunden sind. Während die Modelle selbst oft robust gegen klassische Angriffe sind, eröffnet die Art und Weise, wie sie ihre Ergebnisse erklären, einen neuen Angriffspfad auf der kognitiven Ebene. Durch die gezielte Veränderung von vier Erklärungsdimensionen – Denkmodus, Evidenztyp, Kommunikationsstil und Präsentationsformat – konnten die Forscher die Wirkung von AEAs systematisch untersuchen.

In einem kontrollierten Experiment mit 205 Teilnehmern wurde die sogenannte „Trust‑Miscalibration‑Gap“ gemessen, also die Differenz im Vertrauen der Nutzer zwischen korrekten und inkorrekten Ergebnissen unter Einfluss von adversarial versus neutral Erklärungen. Die Ergebnisse sind alarmierend: Nutzer zeigten nahezu identisches Vertrauen für beide Erklärungsarten, wobei die manipulierten Erklärungen den Großteil des positiven Vertrauens beibehielten, obwohl die zugrunde liegenden Vorhersagen falsch waren. Besonders gefährlich sind Fälle, in denen die Angriffe Expertenkommunikation nachahmen – autoritäre Evidenz, neutraler Ton und ein professionelles Format verstärken das Vertrauen in fehlerhafte Entscheidungen.

Diese Erkenntnisse unterstreichen die Notwendigkeit, nicht nur die technischen Modelle selbst, sondern auch die Art und Weise ihrer Kommunikation zu schützen. Entwickler und Entscheidungsträger müssen künftig robuste Prüfmechanismen für KI‑Erklärungen implementieren, um die Integrität menschlicher Entscheidungsfindung in einer zunehmend KI‑gestützten Welt zu gewährleisten.

Ähnliche Artikel

🍪 Cookie-Einstellungen