Suche nach Sparse Autoencoders

Sparse Semantic Dimension liefert neue Generalisierungssicherheit für LLMs

Die klassische Lerntheorie sagt, dass große Sprachmodelle wegen ihrer enormen Parameterzahl leicht überanpassen sollten. In der Praxis zeig…

arXiv – cs.LG 13.02.2026 05:00

Forschung

Multimodale Einbettungsräume mit gruppensparschen Autoencodern zerlegen Neuer Ansatz nutzt die Linear Representation Hypothesis, wonach neuronale Netzwerke Embeddings als lineare Kombinationen von hochrangigen Konzepten erzeugen. Sparse Autoencoders (SAEs) haben sich als effektives Werkzeug erwiesen, um diese Embeddings in wenige, leicht interpretierbare Richtungen zu zerlegen. Bei multimodalen Daten wie Bild/Text‑Embeddings von CLIP oder Audio/Text‑Embeddings von CLAP zeigte sich jedoch, dass kla

arXiv – cs.LG 29.01.2026 05:00

Forschung

CASL: Supervised Alignment Sparse Latents zur Interpretation Diffusionsmodelle

In Diffusionsmodellen speichern die internen Aktivierungen reichhaltige semantische Informationen, die jedoch bislang schwer zu deuten sind…

arXiv – cs.LG 23.01.2026 05:00

Forschung

YaPO: Sparsere Aktivierungsvektoren für präzise Domänenanpassung von LLMs

In der Welt der großen Sprachmodelle (LLMs) gewinnt die Steuerung durch gezielte Aktivierungsinterventionen immer mehr an Bedeutung – sie b…

arXiv – cs.AI 14.01.2026 05:00

Forschung

Sparse Autoencoders zeigen keine echten Rechenmerkmale in LLMs

In einer neuen Untersuchung auf arXiv wird die Frage aufgeworfen, ob Sparse Autoencoders (SAEs) tatsächlich die eigentlichen Rechenmerkmale…

arXiv – cs.LG 12.01.2026 05:00

Forschung

Sparse Autoencoders: erste 3D‑Anwendung zur Feature‑Decomposition

Forscher haben Sparse Autoencoders (SAEs) erstmals auf 3D‑Modelle angewendet und damit einen wichtigen Schritt in der Analyse von 3D‑Rekons…

arXiv – cs.LG 15.12.2025 05:00

Forschung

Sparse Autoencoders ermöglichen interpretierbare Embeddings – kostengünstiger als LLMs

Ein neues Toolkit nutzt Sparse Autoencoders (SAEs), um Embeddings zu erzeugen, deren Dimensionen direkt auf verständliche Konzepte verweise…

arXiv – cs.AI 12.12.2025 05:00

Forschung

Neue Methode entschlüsselt semantische Struktur von KV-Caches in LLMs

In einem aktuellen Beitrag auf arXiv wird ein neues Verfahren vorgestellt, das die bislang als undurchsichtig betrachtete Key‑Value‑Cache‑S…

arXiv – cs.LG 12.12.2025 05:00

Forschung

Entdecken latente Chemiekenntnisse in Sprachmodellen mit sparsigen Autoencodern

Die Interpretierbarkeit von Machine‑Learning‑Modellen ist seit ihrer Einführung ein zentrales Problem, das gerade bei generativen Systemen…

arXiv – cs.LG 10.12.2025 05:00

Forschung

Geometrische Brücke: Konzept‑Lernen vereint CBM und SAE in einem Modell

In der KI‑Interpretierbarkeit haben sich zwei Strömungen parallel entwickelt: Concept‑Bottleneck‑Modelle (CBMs) und Sparse Autoencoders (SA…

arXiv – cs.AI 09.12.2025 05:00

Forschung

PCA-Whitening verbessert Sparse Autoencoder: Mehr Interpretierbarkeit Neuer Forschungsbericht aus dem arXiv-Repository zeigt, dass die Anwendung von PCA‑Whitening auf die Eingabeaktivierungen Sparse Autoencoders (SAEs) deutlich leistungsfähiger macht. Durch die Entkoppelung der Eingabedaten wird das Optimierungsfeld flacher und konvexer, was die Lernschritte beschleunigt und die Konvergenz stabiler gestaltet. Die Autoren haben sowohl ReLU‑ als auch Top‑K‑SAEs in einer Vielzahl von Architekturen, B

arXiv – cs.LG 19.11.2025 05:00

Forschung

Feature-Steering: Transparente Ausrichtung von Sprachmodellen mit Sparse Autoencoder

Die sichere und nutzbare Ausrichtung großer Sprachmodelle ist ein zentrales Ziel der KI-Forschung. Traditionell wird dafür Reinforcement Le…

arXiv – cs.AI 17.09.2025 05:00

Forschung

Sparse Autoencoder revolutionieren Proteinfunktion in Datenknappheit

Die Vorhersage der Proteinfunktion aus der Aminosäuresequenz bleibt ein zentrales Problem, wenn nur wenige experimentell beschriftete Daten…

arXiv – cs.LG 27.08.2025 05:00

Forschung

Sparse Autoencoders senken Polysemanticität in großen Sprachmodellen Ein neues arXiv‑Paper präsentiert die erste systematische Bewertung von Sparse Autoencoders (SAEs) hinsichtlich ihrer Fähigkeit, die Polysemanticität in großen Sprachmodellen zu reduzieren. Polysemanticität beschreibt das Phänomen, bei dem einzelne Neuronen für mehrere, nicht zusammenhängende Konzepte aktiv werden, was die Interpretierbarkeit der Modelle stark einschränkt. SAEs transformieren die dichten Aktivierungen von

arXiv – cs.LG 22.08.2025 05:00

Finde Modelle, Firmen und Themen

Sparse Semantic Dimension liefert neue Generalisierungssicherheit für LLMs

CASL: Supervised Alignment Sparse Latents zur Interpretation Diffusionsmodelle

YaPO: Sparsere Aktivierungsvektoren für präzise Domänenanpassung von LLMs

Sparse Autoencoders zeigen keine echten Rechenmerkmale in LLMs

Sparse Autoencoders: erste 3D‑Anwendung zur Feature‑Decomposition

Sparse Autoencoders ermöglichen interpretierbare Embeddings – kostengünstiger als LLMs

Neue Methode entschlüsselt semantische Struktur von KV-Caches in LLMs

Entdecken latente Chemiekenntnisse in Sprachmodellen mit sparsigen Autoencodern

Geometrische Brücke: Konzept‑Lernen vereint CBM und SAE in einem Modell

Feature-Steering: Transparente Ausrichtung von Sprachmodellen mit Sparse Autoencoder

Sparse Autoencoder revolutionieren Proteinfunktion in Datenknappheit

🍪 Cookie-Einstellungen