Sparse Autoencoders zeigen keine echten Rechenmerkmale in LLMs
In einer neuen Untersuchung auf arXiv wird die Frage aufgeworfen, ob Sparse Autoencoders (SAEs) tatsächlich die eigentlichen Rechenmerkmale in großen Sprachmodellen (LLMs) erkennen. Die Forscher haben sich zunächst auf Features konzentriert, die mit klassischen kontrastiven Aktivierungsmethoden ausgewählt wurden, und ein neues, falsifikationsorientiertes Verfahren entwickelt, um die wahre Natur dieser Features zu prüfen.