Gewichtspatching: Neue Methode zur Mechanismenlokalisierung in Sprachmodellen
Die mechanistische Interpretierbarkeit von Sprachmodellen strebt danach, das Verhalten eines Modells auf die internen Komponenten zurückzuführen, die es tatsächlich ausführen. Bisherige Ansätze wie die Aktivierungsraum‑…