LLMSHAP: Prinzipielle Erklärbarkeit von Sprachmodellen mit Shapley‑Werten
Ein neues arXiv‑Veröffentlichung mit dem Titel llmSHAP: A Principled Approach to LLM Explainability zeigt, wie die Shapley‑Werte, ein bewährtes Konzept aus der kooperativen Spieltheorie, auf große Sprachmodelle (LLMs) übertragen werden können, obwohl deren Vorhersagen per Definition stochastisch sind. Die Autoren untersuchen, unter welchen Bedingungen die klassischen Prinzipien der Shapley‑Attribution – wie Fairness, Additivität und Symmetrie – in LLM‑basierten Entscheidungshilfesystemen gelten, und welche Implementierungsvarianten diese Prinzipien unterstützen oder verletzen.