Neue Methode dekomponiert GPT-2-small – Einblicke in Parameterraum
Eine neue Studie auf arXiv zeigt, wie die Stochastic Parameter Decomposition (SPD) – ein Verfahren aus der mechanistischen Interpretierbarkeit – erfolgreich auf Transformer‑Modelle angewendet werden kann. Durch die Erweiterung von SPD mit einer speziell für sequentielle Daten entwickelten kausalen Wichtigkeitsfunktion und einer neuen Verlustfunktion gelingt es, die komplexen Parameterstrukturen dieser Modelle zu zerlegen.
Im ersten Test wurde SPD auf ein toy induction‑Head‑Modell angewendet. Die Methode konnte das erwartete 2‑Schritt‑Schaltkreis‑Muster exakt rekonstruieren, was die Genauigkeit der neuen Ansatzpunkte bestätigt.
Der eigentliche Durchbruch zeigte sich bei GPT‑2‑small. SPD identifizierte gezielt Parameter‑Subkomponenten, die mit leicht verständlichen Konzepten wie „golf“ und „basketball“ korrespondieren. Diese Entdeckungen demonstrieren, dass die Technik nicht nur theoretisch, sondern auch praktisch in realen Modellen funktioniert.
Die Ergebnisse markieren einen wichtigen Schritt, SPD in moderne Transformer‑Architekturen zu übertragen. Sie beweisen, dass die Methode dazu genutzt werden kann, interpretierbare Mechanismen im Parameterraum sichtbar zu machen und damit die Transparenz von KI‑Systemen zu erhöhen.