Probe‑Genauigkeit reicht nicht: Neue Metriken für Konzeptausrichtung in KI
In der aktuellen Forschung zur erklärbaren KI wird deutlich, dass die übliche Messgröße – die Klassifikationsgenauigkeit von sogenannten Probe‑Klassifikatoren – nicht aussagekräftig genug ist, um zu beurteilen, ob ein Konzept‑Aktivierungsvektor (CAV) tatsächlich das beabsichtigte Konzept erfasst. Ein neues arXiv‑Veröffentlichung zeigt, dass Probe‑Klassifikatoren häufig auf spurious correlations zurückgreifen und damit ein hohes Accuracy‑Level erreichen, obwohl sie das Zielkonzept nicht korrekt repräsentieren.
Um dieses Problem zu lösen, stellen die Autoren eine innovative Konzept‑Lokalisierungsmethode vor, die auf spatial linear attribution basiert. Diese Technik wird systematisch mit bestehenden Feature‑Visualisierungsmethoden verglichen und demonstriert, dass sie besser in der Lage ist, fehlerhafte Konzeptausrichtungen aufzudecken und zu korrigieren.
Darüber hinaus werden drei neue Metrikklassen eingeführt, die die Qualität der Konzeptausrichtung quantifizieren: harte Genauigkeit, Segmentierungs‑Scores und Robustheit gegenüber Datenaugmentation. Die Analyse zeigt, dass Probe‑Modelle, die translation‑invariant und spatial‑aligned sind, konsequent eine höhere Konzeptausrichtung erreichen. Diese Erkenntnisse unterstreichen die Notwendigkeit, Bewertungskriterien auf Ausrichtung statt auf reine Genauigkeit zu verschieben und Probes gezielt an die Architektur des Modells sowie an die Natur des Zielkonzepts anzupassen.