Forschung
SCALAR: Benchmark für Interaktionssparsamkeit von SAE in kleinen LLMs
Mechanistische Interpretierbarkeit zielt darauf ab, neuronale Netze in verständliche Bausteine zu zerlegen und die Verbindungen zwischen ih…
arXiv – cs.LG