Neue Methode CADA verbessert Sicherheit von Sprachmodellen ohne Hilfsverlust
Die Sicherstellung, dass große Sprachmodelle (LLMs) Sicherheitsprinzipien einhalten, ohne dabei harmlose Anfragen abzulehnen, bleibt eine zentrale Herausforderung. OpenAI hat mit seiner deliberativen Ausrichtung (DA) ve…