Erklärbarkeit von ML-Modellen: Ungewissheit bei Entscheidungspunkten erklärt
In kritischen Entscheidungsprozessen, in denen maschinelles Lernen eingesetzt wird, gilt die Erklärbarkeit von Modellen als entscheidendes Kriterium – oft sogar gesetzlich vorgeschrieben. Ein neues Papier auf arXiv beleuchtet, warum die bisherige Kritik an lokalen linearen Erklärungsansätzen wie LIME und SHAP nicht die eigentliche Ursache des Problems widerspiegelt.
Der Kern des Problems liegt in der hohen Vorhersageunsicherheit an den Grenzstellen von Entscheidungsbäumen. Dort wird die Modellvorhersage stark schwanken, was zu scheinbar instabilen Erklärungen führt. Das Papier argumentiert, dass diese Instabilität nicht auf die Methode selbst zurückzuführen ist, sondern auf die inhärente Unsicherheit des Modells in diesen Regionen.
Die vorgeschlagene Lösung besteht darin, zunächst zu prüfen, ob für einen gegebenen Eingabewert ein „brauchbarer“ Vorhersagewert existiert – also ob die Unsicherheit niedrig genug ist, um eine sinnvolle Aussage zu ermöglichen. Ist dies der Fall, kann eine lokale lineare Approximation verwendet werden, die stabile und nachvollziehbare Erklärungen liefert. Liegt die Unsicherheit dagegen zu hoch, empfiehlt das Papier, die Entscheidung auf ein einfacheres, globales Modell wie die logistische Regression zu verlagern, das in solchen Situationen zuverlässiger agiert.
Ein weiteres Ergebnis des Artikels ist die kritische Bewertung von Modellen, die behaupten, überall erklärbar zu sein, etwa ReLU-Netze oder beliebige stückweise lineare Modelle. Diese Modelle zeigen zwar eine formale Erklärbarkeit, doch die Vorhersageunsicherheit an ihren Segmentgrenzen ist zu groß, um daraus praktische Einsichten zu gewinnen. Damit wird deutlich, dass echte Erklärbarkeit nur dort besteht, wo die Vorhersage selbst zuverlässig ist.