SafeRBench: Neuer Benchmark für Sicherheit von großen Rechenmodellen
Große Rechenmodelle (LRMs) nutzen explizite Gedankenketten, um Antworten zu verbessern. Diese Fähigkeit birgt jedoch neue Gefahren: schädliche Inhalte können subtil eingebettet, allmählich auftauchen oder durch irreführende Begründungen im Denkprozess gerechtfertigt werden. Bisher konzentrieren sich Sicherheitsbewertungen fast ausschließlich auf das Endergebnis und erfassen kaum die dynamischen Risiken, die während des gesamten Denkprozesses entstehen.
Mit SafeRBench wird erstmals ein umfassender, end‑to‑end Benchmark vorgestellt, der die Sicherheit von LRMs von der Eingabe über die Zwischenergebnisse bis hin zum finalen Output bewertet. Der Ansatz umfasst drei zentrale Innovationen:
1. Eingabe‑Charakterisierung: SafeRBench integriert Risikokategorien und -stufen in die Prompt‑Gestaltung, berücksichtigt betroffene Gruppen und Schweregrade und schafft so ein ausgewogenes Prompt‑Set, das unterschiedliche Schadensgrade abbildet.
2. Detaillierte Ausgabenanalyse: Durch ein Mikro‑Gedanken‑Chunking werden lange Denkspuren in semantisch zusammenhängende Einheiten zerlegt, was eine feingranulare Bewertung über zehn Sicherheitsdimensionen ermöglicht.
3. Menschliche Sicherheitsausrichtung: Die automatisierten Bewertungen werden mit speziell entwickelten menschlichen Annotationen abgeglichen, um die Zuverlässigkeit der Sicherheitsurteile zu gewährleisten.
Die Anwendung von SafeRBench auf 19 verschiedene LRMs liefert detaillierte, multidimensionale Einblicke in die Sicherheitsprofile dieser Modelle. Der Benchmark zeigt nicht nur potenzielle Risiken auf, sondern identifiziert auch Schutzmechanismen aus mehreren Perspektiven, was einen wichtigen Schritt zur vertrauenswürdigen Nutzung großer Rechenmodelle darstellt.