Neue Methode schützt KI-Modelle beim Feintuning vor Sicherheitsverlust
Feintuning großer Sprachmodelle (LLMs) ist unverzichtbar, birgt jedoch das Risiko, die Sicherheitsausrichtung stark zu verschlechtern. Selbst harmlos wirkende Trainingsdaten können die Anfälligkeit für sogenannte Jailbr…