Self-Guard: Sicherheit für große Rechenmodelle durch verbesserte Selbstreflexion
Die neu auftretenden Large Reasoning Models (LRMs) eröffnen ein völlig neues Feld des expliziten Denkens und ermöglichen damit beeindruckende Fortschritte. Gleichzeitig entstehen damit spezifische Gefahren wie gezielte…