Ein einzelner Satz reicht, um LLMs zum Fehlverhalten zu bringen
Sicherheitsforscher von Palo Alto Networks’ Unit 42 haben einen einfachen Weg entdeckt, wie große Sprachmodelle ihre Schutzmechanismen umgehen können. Der Trick besteht darin, einen langen Satz mit schlechter Grammatik zu formulieren, der die eingebauten Guardrails der Chatbots zum Schweigen bringt.