ThinkSafe: Selbstgenerierte Sicherheitsausrichtung für große Rechenmodelle
In einer neuen Veröffentlichung auf arXiv (2601.23143v1) stellen die Autoren das Projekt ThinkSafe vor, das die Sicherheit großer Rechenmodelle (LRMs) ohne externe Lehrer neu ausrichtet. Durch den Einsatz von Reinforcem…