SafeRBench: Neuer Benchmark für Sicherheit von großen Rechenmodellen
Große Rechenmodelle (LRMs) nutzen explizite Gedankenketten, um Antworten zu verbessern. Diese Fähigkeit birgt jedoch neue Gefahren: schädliche Inhalte können subtil eingebettet, allmählich auftauchen oder durch irreführende Begründungen im Denkprozess gerechtfertigt werden. Bisher konzentrieren sich Sicherheitsbewertungen fast ausschließlich auf das Endergebnis und erfassen kaum die dynamischen Risiken, die während des gesamten Denkprozesses entstehen.