Backdoor-Angriffe auf LLMs bleiben trotz kontinuierlicher Feinabstimmung bestehen
In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchunge…
- In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfa…
- Während frühere Untersuchungen die Wirksamkeit von Backdoors nur zum Zeitpunkt der Veröffentlichung bewerteten, analysiert diese Arbeit die Persistenz über mehrere Updat…
- Das Team hat einen neuen Angriff namens P‑Trojan entwickelt, der gezielt dafür sorgt, dass die implantierten Backdoors auch nach wiederholten Anpassungen bestehen bleibe…
In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchungen die Wirksamkeit von Backdoors nur zum Zeitpunkt der Veröffentlichung bewerteten, analysiert diese Arbeit die Persistenz über mehrere Update‑Runden hinweg.
Das Team hat einen neuen Angriff namens P‑Trojan entwickelt, der gezielt dafür sorgt, dass die implantierten Backdoors auch nach wiederholten Anpassungen bestehen bleiben. Durch die Ausrichtung der verdorbenen Gradienten auf die gleichen Token‑Einbettungen wie bei sauberen Aufgaben wird die Wahrscheinlichkeit reduziert, dass die Hintertür während der Updates vergessen oder unterdrückt wird.
Die theoretische Analyse bestätigt die Machbarkeit solcher persistenter Angriffe, und umfangreiche Experimente an den Modellen Qwen2.5 und LLaMA3 zeigen, dass P‑Trojan mehr als 99 % Persistenz erreicht, während die Genauigkeit bei normalen Aufgaben unverändert bleibt. Diese Ergebnisse unterstreichen die Dringlichkeit, Evaluierungen und Verteidigungsmechanismen an die Realität von kontinuierlichen Anpassungsprozessen anzupassen.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.