Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “EAPO”
Forschung

<p>Alignment als Waffe: Angriff injectiert Bias in Sprachmodelle</p> <p>In einer neuen Studie, die auf arXiv veröffentlicht wurde, zeigen Forscher, wie Angreifer die Sicherheitsmechanismen großer Sprachmodelle (LLMs) ausnutzen können, um gezielt Vorurteile einzubringen. Der Angriff, der als Subversive Alignment Injection (SAI) bezeichnet wird, nutzt die „Alignment“-Funktion – die dafür sorgt, dass Modelle schädliche oder unsichere Anfragen ablehnen – um spezifische Themen zu blockieren und damit Bias zu erz

arXiv – cs.LG