Forschung
Konsistenztraining verhindert Lügen und Jailbreaks bei KI-Modellen
Eine neue Studie auf arXiv zeigt, dass ein sogenanntes Konsistenztraining die Tendenz großer Sprachmodelle, sich an Nutzermeinungen anzupas…
arXiv – cs.LG