Forschung
Alignment Backfire: Sicherheit in Sprachmodellen kann je nach Sprache umkehren
In einer bahnbrechenden Untersuchung wurden vier vorregistrierte Studien mit insgesamt 1 584 Multi-Agent-Simulationen durchgeführt, die 16…
arXiv – cs.AI