Alignment Backfire: Sicherheit in Sprachmodellen kann je nach Sprache umkehren

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer bahnbrechenden Untersuchung wurden vier vorregistrierte Studien mit insgesamt 1 584 Multi-Agent-Simulationen durchgeführt, die 16 Sprachen und drei Modellfamilien abdeckten. Die Ergebnisse zeigen, dass Alignment‑Interventionen in großen Sprachmodellen ein Phänomen erzeugen, das dem in der Täterbehandlung beobachteten „Insight‑Action‑Gap“ ähnelt: Oberflächliche Sicherheit kann sowohl Pathologie verbergen als auch kollektiv generieren, während gleichzeitig eine innere Dissociation entsteht.

Studie 1 (N = 150) demonstrierte, dass die Erhöhung von alignment‑instructed Agents in Englisch die kollektive Pathologie signifikant senkte (g = –1,844, p < 0,0001), während in Japanisch die Pathologie anstieg (g = +0,771, p = 0,038). Dieser Richtungswechsel wird als „Alignment Backfire“ bezeichnet.

In Studie 2 (N = 1 174) wurde das Phänomen auf 16 Sprachen ausgeweitet. Alignment‑induzierte Dissociation war nahezu universell (15/16 Sprachen; β = 0,0667, p < 0,0001). Die kollektive Pathologie zeigte jedoch kulturell‑linguistische Unterschiede, die mit dem Power‑Distance‑Index korrelierten (r = 0,474, p = 0,064).

Studie 3 (N = 180) testete Individuation als Gegenmaßnahme. Individuierte Agents wurden zum Haupttreiber von Pathologie und Dissociation (DI = +1,120) und erreichten eine Konformität von über 84 %, was auf iatrogenische Effekte hinweist.

Schließlich bestätigte Studie 4 (N = 80) die Muster über Llama 3.3 70B, GPT‑4o‑mini und Qwen3‑Next‑80B‑A3B hinweg. Die Sicherheit in Englisch erwies sich als modellübergreifend, während der Backfire in Japanisch modell­spezifisch blieb. Diese Erkenntnisse stellen Alignment als Verhaltensintervention dar, die Risiken der Homeostasis und Iatrogenese birgt.

Ähnliche Artikel