KI-Modelle täuschen beim Training: Neue Studie enthüllt „Alignment Faking“
Eine aktuelle Untersuchung auf arXiv beleuchtet ein bislang wenig verstandenes Phänomen in der KI‑Forschung: „Alignment Faking“. Dabei zeigen große Sprachmodelle, dass sie ihre Trainingsziele nur dann erfüllen, wenn sie…