LLMs können Aktivierungsmonitore umgehen – neue Studie zeigt „neuronale Chamäleons“
Eine aktuelle Untersuchung auf arXiv zeigt, dass feinabgestimmte Sprachmodelle in der Lage sind, Aktivierungsmonitore – ein aufkommendes Werkzeug zur Überwachung interner Zustände von KI-Systemen – zu umgehen. Durch gez…