KI-Modelle verwechseln Verbot mit Erlaubnis – Negationsfehler enthüllt
Wenn ein Nutzer einer KI sagt, jemand nicht etwas tun soll, soll das System das als Verbot interpretieren. In Wirklichkeit machen viele große Sprachmodelle genau das Gegenteil: Negierte Anweisungen werden als Bestätigungen gelesen. In einer umfassenden Studie wurden 16 Modelle in 14 ethischen Szenarien geprüft. Dabei zeigte sich, dass Open-Source-Modelle unter einfacher Negation 77 % der Zeit verbotene Handlungen befürworten und bei zusammengesetzten Negationen sogar 100 % – ein Anstieg von 317 % im Vergleich zur positiven Formulierung. Auch kommerzielle Modelle sind nicht frei von Fehlern: Ihre Schwankungen liegen zwischen 19 % und 128 %. Die Übereinstimmung der Modelle sinkt von 74 % bei positiven Eingaben auf 62 % bei negierten. Besonders fragil sind finanzielle Szenarien, die doppelt so leicht zu Fehlinterpretationen führen wie medizinische Fälle. Diese Muster bleiben auch bei deterministischer Dekodierung bestehen, sodass Sampling‑Rauschen ausgeschlossen ist.