SALVE: Sparse Autoencoder ermöglicht präzise Steuerung neuronaler Netzwerke

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Neurale Netzwerke liefern beeindruckende Ergebnisse, bleiben aber oft schwer zu verstehen und zu steuern. Mit SALVE – Sparse Autoencoder‑Latent Vector Editing – wird ein neues, einheitliches Verfahren vorgestellt, das die mechanistische Interpretierbarkeit mit gezielten Modelländerungen verbindet.

Durch einen mit ℓ₁-Regularisierung trainierten Autoencoder werden ohne Überwachung eine spärliche, modellnative Featurebasis erlernt. Diese Features werden anschließend mit Grad‑FAM visualisiert, einem saliency‑Mapping‑Tool, das die latenten Merkmale direkt in den Eingabedaten abbildet. So erhält man ein klares Bild davon, welche Eingabedaten welche latenten Features aktivieren.

Die Struktur des Autoencoders erlaubt es, gezielte und dauerhafte Gewichtsanpassungen vorzunehmen. Damit lassen sich sowohl klassenbestimmende als auch übergreifende Merkmale kontinuierlich modulieren. Zusätzlich wird ein kritischer Unterdrückungswert α_crit definiert, der die Abhängigkeit jeder Klasse von ihrem dominanten Feature quantifiziert und so eine feingranulare Robustheitsdiagnose ermöglicht.

Die Methode wurde erfolgreich an klassischen Convolutional‑Netzen (ResNet‑18) sowie an transformerbasierten Modellen (ViT‑B/16) getestet. In beiden Fällen zeigte SALVE eine konsistente, interpretierbare Kontrolle über das Verhalten der Modelle. Damit liefert die Arbeit einen fundierten Ansatz, um Feature‑Entdeckungen in konkrete, umsetzbare Modelländerungen zu überführen und damit transparente, kontrollierbare KI‑Systeme voranzubringen.

Ähnliche Artikel