Neue Angriffsmethode: Nutzerinhalte manipulieren LLMs ohne Wissen
In einer aktuellen Studie von arXiv (2508.19287v1) wird eine bislang unbekannte Angriffsklasse auf große Sprachmodelle (LLMs) vorgestellt. Dabei werden schädliche Anweisungen in scheinbar harmlosen Nutzereingaben – etwa…