Robuste Datenattribution: Von konvexen Modellen zu tiefen Netzwerken

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In einer wegweisenden Veröffentlichung präsentiert ein Forschungsteam einen einheitlichen Rahmen für zertifizierte, robuste Datenattribution, der von konvexen Modellen bis hin zu tiefen neuronalen Netzen reicht. Für konvexe Szenarien führen die Autoren die Wasserstein‑Robust Influence Functions (W‑RIF) ein, die mit mathematischen Garantien für die Abdeckung ausgestattet sind.

Bei tiefen Netzwerken zeigen die Autoren, dass herkömmliche euklidische Zertifizierungen durch ein Phänomen namens Spektralverstärkung (Spectral Amplification) praktisch nutzlos werden. Dabei wird die Lipschitz‑Grenze durch die inhärente Ill‑Conditionierung der tiefen Repräsentationen um mehr als 10.000‑fach erhöht, was die Stabilität der Attribution stark beeinträchtigt. Trotz genauer Punktschätzungen liefern die üblichen TRAK‑Scores geometrisch fragile Ergebnisse, und eine naive euklidische Robustheitsanalyse führt zu 0 % Zertifizierung.

Die Lösung des Teams ist die Einführung einer natürlichen Wasserstein‑Metrik, die Störungen in der vom Modell selbst erzeugten Feature‑Kovarianz misst. Diese Metrik eliminiert die Spektralverstärkung, reduziert die Worst‑Case‑Sensitivität um 76‑fach und stabilisiert die Attributionsschätzungen erheblich. Auf dem CIFAR‑10‑Datensatz mit einem ResNet‑18‑Modell zertifiziert die neue Natural W‑TRAK‑Methode 68,7 % der Rangfolge‑Paare – ein erster nicht‑vakuöser, zertifizierter Grenzwert für neuronale Netzwerke.

Darüber hinaus zeigen die Autoren, dass der Self‑Influence‑Term, der aus ihrer Analyse hervorgeht, exakt dem Lipschitz‑Konstanten entspricht, die die Stabilität der Attribution bestimmen. Diese theoretische Fundierung unterstützt die Nutzung von Leverage‑basierten Anomalieerkennungen. Empirisch erreicht Self‑Influence eine AUR‑Wertung von 0,970, was die hohe Genauigkeit der Methode unterstreicht.

Ähnliche Artikel