Neuer Score misst Unsicherheit in Transformer-Schaltkreisen
In der Mechanistic‑Interpretability-Forschung wurden funktionale Teilgraphen in großen Sprachmodellen – die sogenannten Transformer‑Circuits – identifiziert, die anscheinend spezifische Algorithmen ausführen. Doch bislang fehlte ein einheitliches, einmaliges Verfahren, um zu bestimmen, ob ein aktiver Circuit kohärent arbeitet und damit vertrauenswürdig ist.