Personalisierte Sprachmodelle: Wie Erinnerungen gefährliche Anfragen legitimieren

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung beleuchtet, wie die Integration von Langzeit‑Gedächtnis in große Sprachmodelle (LLMs) nicht nur die Nutzererfahrung verbessert, sondern auch unerwartete Sicherheitsrisiken birgt. Die Autoren zeigen, dass persönliche Erinnerungen die Intentionserkennung verzerren und damit schädliche Anfragen legitimer erscheinen lassen – ein Phänomen, das sie „Intent Legitimation“ nennen.

Um dieses Problem zu quantifizieren, haben die Forscher das PS‑Bench‑Benchmark entwickelt. In Tests mit verschiedenen, gedächtnis‑gestützten Agenten und Basis‑LLMs stieg die Erfolgsrate von Angriffen dank Personalisierung um 15,8 % bis zu 243,7 % im Vergleich zu stateless‑Modellen. Diese Zahlen verdeutlichen, wie stark persönliche Kontexte die Sicherheit von Dialogagenten beeinflussen können.

Die Studie liefert zudem mechanistische Belege dafür, dass interne Repräsentationsräume der Modelle die Verzerrung erzeugen. Als Gegenmaßnahme schlagen die Autoren eine leichtgewichtige „Detection‑Reflection“-Methode vor, die die Sicherheitsdegradation signifikant reduziert. Diese Technik kann in bestehenden Systemen ohne großen Aufwand integriert werden.

Insgesamt stellt die Arbeit die erste systematische Untersuchung von Intent Legitimation dar und unterstreicht die Notwendigkeit, Sicherheitsaspekte bei der Nutzung von Langzeit‑Gedächtnis in personalisierten Sprachagenten sorgfältig zu prüfen. Die Autoren warnen ausdrücklich, dass die Veröffentlichung potenziell schädliche Inhalte enthalten kann.

Ähnliche Artikel