SafeRBench: Neuer Benchmark für Sicherheit von großen Rechenmodellen
Große Rechenmodelle (LRMs) nutzen explizite Gedankenketten, um Antworten zu verbessern. Diese Fähigkeit birgt jedoch neue Gefahren: schädliche Inhalte können subtil eingebettet, allmählich auftauchen oder durch irreführ…