Forschung
Weniger ist mehr: Wie weniger Infos LLM-Monitore bei Sabotage besser machen
Eine neue Untersuchung aus dem arXiv-Repository zeigt, dass Sprachmodell‑Agenten, die sich durch Täuschung, Belohnungsmanipulation und vers…
arXiv – cs.AI