Post-Hoc-Erklärungen sind nur bei einfachen Modellen sinnvoll

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Studie aus dem arXiv‑Repository zeigt, dass die meisten beliebten Post‑Hoc‑Erklärungsalgorithmen – wie Gradient‑ oder SHAP‑Methoden – bei komplexen Modellen keine echten Einsichten liefern. Die Autoren haben ein theoretisches Rahmenwerk entwickelt, das definiert, wann eine Erklärung als „informativ“ gilt: Sie muss die Komplexität des Raums möglicher Entscheidungsfunktionen reduzieren.

Mit diesem Ansatz konnten sie mathematisch nachweisen, dass viele gängige Erklärungswerkzeuge bei komplexen Entscheidungsfunktionen nicht informativ sind. Das bedeutet, dass die Idee, jedes Modell vollständig erklären zu können, in der Praxis nicht haltbar ist. Die Arbeit liefert klare Bedingungen, unter denen bestimmte Algorithmen dennoch informativ werden können – oft jedoch mit strengeren Voraussetzungen als erwartet.

Beispielsweise zeigen die Ergebnisse, dass Gradient‑Erklärungen und kontrafaktische Erklärungen für differenzierbare Funktionen nicht informativ sind, während SHAP‑ und Anchor‑Erklärungen bei Entscheidungsbäumen versagen. Die Autoren diskutieren, wie diese Algorithmen angepasst werden können, um die gewünschte Informationsgehalt zu erreichen.

Die Erkenntnisse haben direkte Auswirkungen auf die praktische Anwendung von Erklärungswerkzeugen, insbesondere bei der Modellprüfung und beim Auditieren von KI‑Systemen. Sie verdeutlichen, dass Entwickler und Prüfer bei der Auswahl von Erklärungsalgorithmen die Modellkomplexität berücksichtigen müssen, um tatsächlich nützliche Einsichten zu gewinnen.

Ähnliche Artikel