SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs
Mechanistische Interpretierbarkeit zielt darauf ab, neuronale Netze in verständliche Bausteine zu zerlegen und die Verbindungen zwischen ihnen zu kartieren. Der gängige Ansatz trainiert für jede Schicht einen sparsamen Autoencoder (SAE), doch wenn diese Autoencoder isoliert trainiert werden, entstehen oft übermäßig dichte Verbindungen zwischen aufeinanderfolgenden Schichten. Dadurch wirken sich einzelne Merkmale unnötig auf viele nachfolgende Merkmale aus, was die Klarheit der extrahierten Schaltkreise stark beeinträchtigt.