Forschung
Neuer Score misst Unsicherheit in Transformer-Schaltkreisen
In der Mechanistic‑Interpretability-Forschung wurden funktionale Teilgraphen in großen Sprachmodellen – die sogenannten Transformer‑Circuit…
arXiv – cs.LG