<p>Sparse Autoencoders senken Polysemanticität in großen Sprachmodellen</p> <p>Ein neues arXiv‑Paper präsentiert die erste systematische Bewertung von Sparse Autoencoders (SAEs) hinsichtlich ihrer Fähigkeit, die Polysemanticität in großen Sprachmodellen zu reduzieren. Polysemanticität beschreibt das Phänomen, bei dem einzelne Neuronen für mehrere, nicht zusammenhängende Konzepte aktiv werden, was die Interpretierbarkeit der Modelle stark einschränkt.</p> <p>SAEs transformieren die dichten Aktivierungen von
Anzeige