Neuer Score misst Unsicherheit in Transformer-Schaltkreisen
In der Mechanistic‑Interpretability-Forschung wurden funktionale Teilgraphen in großen Sprachmodellen – die sogenannten Transformer‑Circuits – identifiziert, die anscheinend spezifische Algorithmen ausführen. Doch bisla…