Sparse Autoencoders zeigen keine echten Rechenmerkmale in LLMs
In einer neuen Untersuchung auf arXiv wird die Frage aufgeworfen, ob Sparse Autoencoders (SAEs) tatsächlich die eigentlichen Rechenmerkmale in großen Sprachmodellen (LLMs) erkennen. Die Forscher haben sich zunächst auf Features konzentriert, die mit klassischen kontrastiven Aktivierungsmethoden ausgewählt wurden, und ein neues, falsifikationsorientiertes Verfahren entwickelt, um die wahre Natur dieser Features zu prüfen.
Das Verfahren kombiniert gezielte Token‑Injektionen mit einer von LLMs geleiteten Falsifikation. Durch das Einfügen einer kleinen Anzahl token‑assoziierter Wörter in nicht‑relevante Texte konnten die Forscher die Aktivierung von 59 % bis 94 % der Features stark erhöhen. Dies deutet darauf hin, dass viele der identifizierten Merkmale stark von lexikalischen Artefakten abhängen. Für die verbleibenden Features, die nicht durch einfache Token‑Trigger erklärt werden konnten, erzeugte die LLM‑gesteuerte Falsifikation systematisch nicht‑relevante Eingaben, die die Features aktivierten, während echte Rechenaufgaben sie nicht aktivierten. Kein analysiertes Feature erfüllte die Kriterien für echtes Rechenverhalten.
Ein weiteres Ergebnis zeigte, dass das gezielte Steuern dieser Features kaum Auswirkungen auf die Benchmark‑Leistung hat – im Gegenteil, es führt oft zu geringfügigen Verschlechterungen. Diese Beobachtungen legen nahe, dass die von kontrastiven Ansätzen identifizierten SAE‑Features vor allem sprachliche Korrelationen abbilden, anstatt die eigentlichen Rechenprozesse zu erfassen.
Zusammenfassend lässt sich sagen, dass Sparse Autoencoders, wie sie derzeit eingesetzt werden, nicht die zugrunde liegenden Rechenmechanismen in Sprachmodellen erfassen, sondern vielmehr sprachliche Artefakte widerspiegeln. Die Studie liefert damit wichtige Hinweise für zukünftige Ansätze zur Erkennung echter Rechenmerkmale in KI‑Modellen.