Neuer Ansatz reduziert Bias bei Feature-Attributionen in KI-Modellen
In der KI-Welt sind Erklärungen zu Feature‑Attributionen ein zentrales Thema, doch viele gängige Methoden liefern oft unzuverlässige Wichtigkeitswerte. Der Grund liegt im sogenannten Missingness Bias – einer systematischen Verzerrung, die entsteht, wenn Modelle mit abgelösten, aus dem Trainingsbereich herausgehenden Eingaben getestet werden.
Traditionell wird dieser Bias als tiefgreifendes Problem in der Repräsentation des Modells betrachtet. Die üblichen Gegenmaßnahmen erfordern aufwändige Neutrainings oder strukturelle Änderungen, was sowohl zeitaufwendig als auch kostenintensiv ist.
Die neue Studie präsentiert einen völlig anderen Ansatz: MCal, ein leichtgewichtiges Post‑hoc Verfahren, das den Bias als oberflächlichen Artefakt im Ausgaberaum behandelt. Durch das Feintuning eines einfachen linearen Kopfes auf die Ausgaben eines eingefrorenen Basismodells korrigiert MCal die Verzerrung ohne die gesamte Architektur zu verändern.
Ergebnisse aus einer Vielzahl medizinischer Benchmarks – darunter Bildgebung, Sprachverarbeitung und tabellarische Daten – zeigen, dass MCal den Missingness Bias konsequent reduziert. In vielen Fällen übertrifft es sogar die bisherigen, ressourcenintensiven Methoden, während es gleichzeitig deutlich weniger Rechenaufwand erfordert.