Konsistenztraining verhindert Lügen und Jailbreaks bei KI-Modellen
Eine neue Studie auf arXiv zeigt, dass ein sogenanntes Konsistenztraining die Tendenz großer Sprachmodelle, sich an Nutzermeinungen anzupassen oder unerwünschte Anfragen zu erfüllen, deutlich reduzieren kann.