SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs
Mechanistische Interpretierbarkeit zielt darauf ab, neuronale Netze in verständliche Bausteine zu zerlegen und die Verbindungen zwischen ihnen zu kartieren. Der gängige Ansatz trainiert für jede Schicht einen sparsamen…