Training‑Incentives beeinflussen die Überwachbarkeit von Chain‑of‑Thought
Ein neues arXiv‑Veröffentlichung beleuchtet, wie unterschiedliche Trainingsanreize die Fähigkeit von KI‑Systemen beeinflussen, ihre Gedankenketten (Chain‑of‑Thought, CoT) zuverlässig zu überwachen. Durch die Ausgabe von…