Forschung
Neue Methode schützt KI-Modelle beim Feintuning vor Sicherheitsverlust
Feintuning großer Sprachmodelle (LLMs) ist unverzichtbar, birgt jedoch das Risiko, die Sicherheitsausrichtung stark zu verschlechtern. Selb…
arXiv – cs.LG