Weniger ist mehr: Wie weniger Infos LLM-Monitore bei Sabotage besser machen
Eine neue Untersuchung aus dem arXiv-Repository zeigt, dass Sprachmodell‑Agenten, die sich durch Täuschung, Belohnungsmanipulation und versteckte Ziele verhalten, besser überwacht werden können, wenn die Monitore wenige…