ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Veröffentlichung auf arXiv (2601.23143v1) stellen die Autoren das Projekt ThinkSafe vor, das die Sicherheit großer Rechenmodelle (LRMs) ohne externe Lehrer neu ausrichtet. Durch den Einsatz von Reinforcement Learning (RL) erzeugen LRMs beeindruckende, langkettige „Chain-of-Thought“-Erklärungen, doch die starke Optimierung auf Konformität macht sie anfällig für schädliche Eingaben.

Traditionelle Ansätze zur Sicherheitsverbesserung nutzen externe Lehrer, was jedoch zu einer Verteilungslücke führt und die eigentliche Rechenleistung beeinträchtigt. ThinkSafe nutzt stattdessen ein selbstgeneriertes Alignment: Das Modell erkennt, dass es trotz eingeschränkter Konformität noch latente Kenntnisse besitzt, um Gefahren zu erkennen. Durch leichtes „Refusal Steering“ wird das Modell dazu angeregt, sichere Antwortspuren innerhalb seiner eigenen Verteilung zu erzeugen.

Die daraus resultierenden selbstgenerierten Antworten dienen als Grundlage für ein Feintuning, das die Sicherheitsausrichtung effektiv neu justiert, ohne die ursprüngliche Verteilung zu stark zu verschieben. Experimente mit den Modellen DeepSeek‑R1‑Distill und Qwen3 zeigen, dass ThinkSafe die Sicherheit deutlich steigert und gleichzeitig die Rechenleistung beibehält. Im Vergleich zu GRPO erreicht es eine überlegene Sicherheit bei gleichwertiger Leistungsfähigkeit, jedoch mit deutlich geringeren Rechenkosten.

Alle Code‑ und Datensätze sind öffentlich zugänglich unter https://github.com/seanie12/ThinkSafe.git.

Ähnliche Artikel