AgentSHAP: Tool-Bedeutung von LLM-Agenten mit Monte-Carlo-Shapley-Werten
LLM‑Agenten, die externe Tools einsetzen, können komplexe Aufgaben lösen, doch bislang ist unklar, welche dieser Tools tatsächlich zur Antwort beigetragen haben. Dieser Blindspot fehlt in allen bisherigen XAI‑Methoden, die sich auf Tokens oder Bildregionen konzentrieren.
Mit AgentSHAP wird erstmals ein framework‑unabhängiges Verfahren vorgestellt, das die Bedeutung einzelner Tools in LLM‑Agenten transparent macht. AgentSHAP behandelt den Agenten als Black‑Box und ist damit mit jedem großen Sprachmodell – von GPT über Claude bis hin zu Llama – kompatibel, ohne interne Gewichte oder Gradienten zu benötigen.
Das Herzstück ist die Monte‑Carlo‑Schätzung von Shapley‑Werten. Durch gezieltes Testen verschiedener Tool‑Untergruppen ermittelt AgentSHAP faire Wichtigkeitswerte, die auf Spieltheorie basieren. Die Monte‑Carlo‑Sampling‑Strategie reduziert die Rechenkomplexität von O(2ⁿ) auf praktikable Werte, sodass die Methode auch bei vielen Tools einsetzbar ist.
Experimentelle Ergebnisse auf dem API‑Bank‑Datensatz zeigen, dass AgentSHAP konsistente Scores liefert, die klar zwischen relevanten und irrelevanten Tools unterscheiden. Damit ergänzt AgentSHAP die bereits bestehenden Shapley‑basierten XAI‑Tools TokenSHAP (für Tokens) und PixelSHAP (für Bildregionen) und bildet eine umfassende Familie von Erklärungswerkzeugen für moderne generative KI.
Der Quellcode ist öffentlich verfügbar unter https://github.com/GenAISHAP/TokenSHAP.