Erklärungs‑Bias als Produkt: Enthüllung versteckter Wort‑ und Positionspräferenzen
In einer neuen Studie von arXiv‑Veröffentlichung 2512.11108v1 wird gezeigt, dass die Erklärungen von Sprachmodellen nicht neutral sind. Feature‑Attribution‑Methoden wie Integrated Gradients liefern token‑weise Einsichte…