AutoBackdoor: Automatisierte Backdoor-Angriffe auf LLMs mit Agenten
In einer bahnbrechenden Veröffentlichung auf arXiv wird das neue Framework AutoBackdoor vorgestellt, das Backdoor-Angriffe auf große Sprachmodelle (LLMs) vollständig automatisiert. Durch den Einsatz eines leistungsstarken Sprachmodell-Agenten generiert AutoBackdoor semantisch konsistente, kontextabhängige Triggerphrasen und erstellt damit gezielt kompromittierte Trainingsdaten – alles ohne manuellen Aufwand.