Neues Framework erklärt KI-Modelle mit kausalen Konzepten
Ein neues Konzept für die Erklärbarkeit von künstlicher Intelligenz (KI) wurde vorgestellt. Das Framework richtet sich an nicht interpretierbare Modelle und legt besonderen Wert darauf, dass die Erklärungen sowohl verständlich als auch treu zum zugrunde liegenden Modell sind.
Die Methode nutzt die Wahrscheinlichkeit der Suffizienz von Konzeptinterventionen, um sowohl lokale als auch globale Erklärungen zu generieren. Durch gezielte Manipulation von Konzepten lässt sich nachvollziehen, welche Faktoren die Entscheidungen des Modells maßgeblich beeinflussen.
Als Beispiel wurde ein Proof‑of‑Concept-Modell auf dem CelebA-Datensatz angewendet. Die Erklärungen basieren auf einem klaren, konzeptbasierten Vokabular, das eine implizite kausale Interpretation zulässt. Gleichzeitig werden wichtige Annahmen des Frameworks hervorgehoben, um die Treue der Erklärungen zum Modell sicherzustellen.