Neues Verfahren ermöglicht skalierbare Datenattribution ohne Rückwärtsdurchläufe
In der KI-Forschung steht die Rückverfolgung von Modellentscheidungen zu den Trainingsdaten im Fokus. Das neue Verfahren, vorgestellt auf arXiv, löst das Problem, dass klassische Einflussfunktionen bei modernen Netzwerken zu rechenintensiv sind, indem es die Notwendigkeit von Rückwärtsdurchläufen bei der Inferenz eliminiert.
Der Ansatz simuliert den Einfluss jedes Trainingsbeispiels auf die Modellparameter während des Trainings mittels kurzer Gradientenschritte. Anschließend werden die Attributionswerte für beliebige Anfragen ausschließlich durch Vorwärtsberechnungen abgelesen. Dadurch verschiebt sich die Hauptlast von der Inferenz auf die Trainingsphase, was besonders in Produktionsumgebungen von Vorteil ist, in denen ein Modell Millionen von Anfragen verarbeitet, aber nur aus einer festen Datenbasis stammt.
Experimentelle Ergebnisse auf Standard-MLP-Benchmarks zeigen, dass der neue Schätzer die Leistung von etablierten Baselines wie TRAK in Bezug auf LOO- und LDS-Metriken erreicht oder sogar übertrifft. Gleichzeitig reduziert er die Inferenzkosten um mehrere Größenordnungen, was eine Echtzeit-Datenattribution in großen vortrainierten Modellen ermöglicht.
Das Verfahren verbindet die theoretische Fundierung von Einflussfunktionen mit einer ersten‑Ordnung‑Skalierbarkeit und bietet damit einen praktikablen Rahmen für die Analyse und Bewertung von Trainingsdaten in modernen KI-Systemen.