Ein Prompt macht KI-Modelle unsicher – neue Methode GRP-Oblit
Die Sicherheit von Sprachmodellen hängt von ihrem schwächsten Punkt ab. Obwohl umfangreiche Arbeiten zur Sicherheit nach dem Training existieren, kann ein Modell durch nachträgliches Feintuning leicht unaligned werden –…