Neue Methode erklärt und steuert KI-Verhalten mit „Verfassungen“
Ein neues Framework für die Black‑Box‑Interpretierbarkeit von KI-Modellen hat die Forschung revolutioniert. Durch das Lernen einer überprüfbaren „Verfassung“ – einer natürlichen Sprachzusammenfassung, die beschreibt, wi…