Ordnung schafft Konsistenz: Neue Sparse Autoencoder lösen Feature‑Unsicherheit

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In der Forschung zu sparsamen Autoencodern (SAEs) ist die Interpretierbarkeit von neuronalen Netzwerken ein zentrales Thema. Ein häufiges Problem ist jedoch, dass die erlernten Features stark von Zufallsinitialisierungen und Hyperparametern abhängen. Um diesem Problem entgegenzuwirken, stellen die Autoren des neuen Papers Ordered Sparse Autoencoders (OSAE) vor, die die bisherige Matryoshka‑SAE‑Architektur um zwei entscheidende Verbesserungen erweitern.

OSAE erzwingen eine feste Reihenfolge der latenten Features und nutzen deterministisch jede Dimension des Feature‑Raums. Dadurch entfällt die stochastische Auswahl, die bei früheren nested‑SAE‑Methoden üblich war. Theoretisch zeigen die Autoren, dass OSAE die Permutations‑Nichtidentifizierbarkeit in sparsamen Dictionary‑Learning‑Setups löst, sofern die Lösungen eindeutig sind (bis auf natürliche Symmetrien).

In praktischen Tests auf den Sprachmodellen Gemma2‑2B und Pythia‑70M konnten die Forscher nachweisen, dass OSAE die Konsistenz der erlernten Features gegenüber Matryoshka‑Baselines deutlich verbessert. Diese Fortschritte markieren einen wichtigen Schritt hin zu zuverlässigeren und besser interpretierbaren neuronalen Modellen.

Ähnliche Artikel