Backdoor-Angriffe auf LLMs bleiben trotz kontinuierlicher Feinabstimmung bestehen
In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchungen die Wirksamkeit von Backdoors nur zum Zeitpunkt der Veröffentlichung bewerteten, analysiert diese Arbeit die Persistenz über mehrere Update‑Runden hinweg.
Das Team hat einen neuen Angriff namens P‑Trojan entwickelt, der gezielt dafür sorgt, dass die implantierten Backdoors auch nach wiederholten Anpassungen bestehen bleiben. Durch die Ausrichtung der verdorbenen Gradienten auf die gleichen Token‑Einbettungen wie bei sauberen Aufgaben wird die Wahrscheinlichkeit reduziert, dass die Hintertür während der Updates vergessen oder unterdrückt wird.
Die theoretische Analyse bestätigt die Machbarkeit solcher persistenter Angriffe, und umfangreiche Experimente an den Modellen Qwen2.5 und LLaMA3 zeigen, dass P‑Trojan mehr als 99 % Persistenz erreicht, während die Genauigkeit bei normalen Aufgaben unverändert bleibt. Diese Ergebnisse unterstreichen die Dringlichkeit, Evaluierungen und Verteidigungsmechanismen an die Realität von kontinuierlichen Anpassungsprozessen anzupassen.