Mechanistische Interpretierbarkeit reicht nicht: Modelle korrigieren Fehler nicht
Eine neue Untersuchung auf arXiv zeigt, dass mechanistische Interpretationsansätze – obwohl sie die internen Wissensrepräsentationen eines Sprachmodells nahezu perfekt abbilden – die Fehler des Modells nicht zuverlässig…