Neue Distillationstechnik erhöht Angriffe auf LLM-basierte Empfehlungssysteme
Forscher haben ein neues Angriffskonzept entwickelt, das die Sicherheit von großen Sprachmodellen (LLM) in Empfehlungssystemen gefährdet. Dabei nutzt die Methode Knowledge Distillation, um ein starkes Referenzmodell zu erzeugen, das zwischen Trainingsdaten und nicht‑Trainingsdaten unterscheiden kann.