Relevance Patching: Schnellere und zuverlässigere Circuit-Entdeckung
In der mechanistischen Interpretierbarkeit wird das Aktivierungs‑Patching häufig eingesetzt, um die Modellkomponenten zu identifizieren, die für bestimmte Verhaltensweisen verantwortlich sind. Diese Methode ist jedoch bei großem Umfang sehr rechenintensiv. Attribution‑Patching bietet eine schnellere, gradientenbasierte Alternative, leidet aber unter Rauschen und geringerer Zuverlässigkeit in tiefen, stark nichtlinearen Netzwerken.