Robuste Bayessche Gegenfaktische Erklärungen trotz Modelländerungen
Gegenfaktische Erklärungen (CEs) ermöglichen es, die Entscheidungen von Machine‑Learning‑Modellen zu hinterfragen, indem sie Fragen wie „Was wäre, wenn…?“ beantworten. In der Praxis werden Modelle jedoch häufig aktualisiert, wodurch bestehende CEs schnell an Genauigkeit verlieren.
Um diesem Problem zu begegnen, präsentiert die neue Studie die Methode Probabilistically Safe CEs (PSCE). PSCE erzeugt Erklärungen, die sowohl δ‑sicher – also mit hoher Vorhersage‑Vertrauenswürdigkeit – als auch ε‑robust – mit niedriger Vorhersage‑Varianz – sind. Durch die Anwendung bayesscher Prinzipien liefert PSCE formale, probabilistische Garantien für die Stabilität der Erklärungen, selbst wenn das zugrunde liegende Modell geändert wird.
Die Autoren integrieren Unsicherheits‑Constraints direkt in ihr Optimierungsframework und validieren die Methode anschließend an einer Vielzahl unterschiedlicher Datensätze. Die Ergebnisse zeigen, dass PSCE nicht nur plausiblere und diskriminativere Gegenfaktische Erklärungen erzeugt, sondern diese auch nachweislich robust gegenüber Modelländerungen bleiben.
Im Vergleich zu bestehenden bayesschen CE‑Ansätzen übertrifft PSCE die Konkurrenz deutlich, indem es sowohl die Qualität der Erklärungen als auch deren Stabilität unter sich verändernden Modellen verbessert.