Neue Angriffsmethode: Nutzerinhalte manipulieren LLMs ohne Wissen
In einer aktuellen Studie von arXiv (2508.19287v1) wird eine bislang unbekannte Angriffsklasse auf große Sprachmodelle (LLMs) vorgestellt. Dabei werden schädliche Anweisungen in scheinbar harmlosen Nutzereingaben – etwa hochgeladene Dokumente oder kopierten Text – versteckt. Sobald das Modell die Eingabe verarbeitet, können die versteckten Prompts das Ergebnis gezielt verändern, ohne dass der Nutzer oder das System etwas bemerkt.
Die Folgen sind alarmierend: Zusammenfassungen können voreingenommen werden, Fakten können erfunden oder Aussagen verfälscht werden. Die Autoren demonstrieren, dass solche Angriffe auf allen gängigen Plattformen funktionieren, weil die Modelle Eingaben einfach aneinanderhängen und dabei keine ausreichende Isolation der Inhalte gewährleisten.
Die Untersuchung identifiziert die Hauptursachen – Prompt‑Konkatenation und mangelnde Input‑Isolation – und schlägt konkrete Gegenmaßnahmen vor. Dazu gehören strengere Eingabevalidierung, isolierte Prompt‑Verarbeitung und transparente Rückmeldungen an die Nutzer.
Die Ergebnisse zeigen, dass selbst in realen Arbeitsabläufen ein subtiler, aber praktischer Bedrohungsfaktor besteht. Entwickler und Betreiber von LLM‑Anwendungen sollten die vorgestellten Erkenntnisse ernst nehmen und entsprechende Schutzmechanismen implementieren, um die Integrität ihrer Systeme zu gewährleisten.