Forschung arXiv – cs.AI

Backdoor-Angriffe auf LLMs bleiben trotz kontinuierlicher Feinabstimmung bestehen

In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchunge…

≈1 Min. Lesezeit Originalquelle
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfa…
  • Während frühere Untersuchungen die Wirksamkeit von Backdoors nur zum Zeitpunkt der Veröffentlichung bewerteten, analysiert diese Arbeit die Persistenz über mehrere Updat…
  • Das Team hat einen neuen Angriff namens P‑Trojan entwickelt, der gezielt dafür sorgt, dass die implantierten Backdoors auch nach wiederholten Anpassungen bestehen bleibe…

In einer neuen Studie wird gezeigt, dass sich bösartige Hintertüren in großen Sprachmodellen (LLMs) auch nach mehrmaliger, benutzergetriebener Feinabstimmung nicht einfach verbergen lassen. Während frühere Untersuchungen die Wirksamkeit von Backdoors nur zum Zeitpunkt der Veröffentlichung bewerteten, analysiert diese Arbeit die Persistenz über mehrere Update‑Runden hinweg.

Das Team hat einen neuen Angriff namens P‑Trojan entwickelt, der gezielt dafür sorgt, dass die implantierten Backdoors auch nach wiederholten Anpassungen bestehen bleiben. Durch die Ausrichtung der verdorbenen Gradienten auf die gleichen Token‑Einbettungen wie bei sauberen Aufgaben wird die Wahrscheinlichkeit reduziert, dass die Hintertür während der Updates vergessen oder unterdrückt wird.

Die theoretische Analyse bestätigt die Machbarkeit solcher persistenter Angriffe, und umfangreiche Experimente an den Modellen Qwen2.5 und LLaMA3 zeigen, dass P‑Trojan mehr als 99 % Persistenz erreicht, während die Genauigkeit bei normalen Aufgaben unverändert bleibt. Diese Ergebnisse unterstreichen die Dringlichkeit, Evaluierungen und Verteidigungsmechanismen an die Realität von kontinuierlichen Anpassungsprozessen anzupassen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Welches konkrete Problem loest das Modell besser als bisher?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Backdoor
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
P-Trojan
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen