Kategorisierte Ablehnung: Llama 3 8B ermöglicht fein abgestimmte Sicherheitssteuerung
Moderne Sprachmodelle werden zunehmend für die Sicherheit optimiert, indem sie lernen, schädliche Anfragen abzulehnen. In einer neuen Studie wird ein Ansatz vorgestellt, bei dem das Modell mit kategorisierten Ablehnungs…