Alignment Backfire: Sicherheit in Sprachmodellen kann je nach Sprache umkehren
In einer bahnbrechenden Untersuchung wurden vier vorregistrierte Studien mit insgesamt 1 584 Multi-Agent-Simulationen durchgeführt, die 16 Sprachen und drei Modellfamilien abdeckten. Die Ergebnisse zeigen, dass Alignmen…