ABLE: Adversarial Pairs ermöglichen stabile lokale Erklärungen von ML-Modellen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Maschinelles Lernen wird zunehmend in kritischen Bereichen eingesetzt, bleibt jedoch oft ein „Black‑Box“-Phänomen, weil die Entscheidungsprozesse nicht nachvollziehbar sind. Lokale Erklärungsansätze wie LIME versuchen, dieses Problem zu lösen, indem sie das Verhalten komplexer Modelle in der Nähe eines Testpunkts mit einfachen, interpretierbaren Modellen approximieren. Diese Verfahren leiden jedoch häufig unter Instabilität und geringer lokaler Genauigkeit.

In der neuen Studie wird die Methode „Adversarially Bracketed Local Explanation“ (ABLE) vorgestellt, die diese Schwächen gezielt adressiert. Zunächst werden für einen Testpunkt x_test Punkte im Nachbarschaftsbereich erzeugt, indem begrenzter Gauß‑Rauschen hinzugefügt wird. Für jeden dieser Punkte wird dann ein adversarialer Angriff durchgeführt, um einen Punkt A mit minimaler Veränderung zu erzeugen, der eine andere Klassifikation liefert. Anschließend wird ein zweiter Angriff auf A ausgeführt, um einen Punkt A' zu generieren, der die gleiche Klasse wie der ursprüngliche Punkt hat, aber von A abweicht. Das Paar (A, A') bildet somit eine Bracke um die lokale Entscheidungsgrenze von x_test.

Durch das Training eines linearen Modells auf diesen adversarialen Paaren kann die lokale Entscheidungsgrenze präzise approximiert werden. Experimente an sechs UCI‑Benchmark‑Datensätzen und drei tiefen neuronalen Netzarchitekturen zeigen, dass ABLE sowohl höhere Stabilität als auch bessere lokale Genauigkeit als der aktuelle Stand der Technik erreicht.

Ähnliche Artikel