Neue Methode stärkt Sicherheit von Sprachmodellen durch gezielte Optimierungsgeometrie
Die Sicherheit großer Sprachmodelle bleibt trotz Fortschritten oft fragil, wenn die Trainingsdaten von ihrem ursprünglichen Kontext abweichen oder die Präferenzfeedbacks verrauscht sind. Traditionelle robuste Ansätze ko…