Forschung
CircuitProbe: Schnelle Vorhersage von Rechenkreisen in Transformer-Modellen
Transformer‑Sprachmodelle enthalten spezialisierte Rechenkreise, die in aufeinanderfolgenden Layer‑Blöcken liegen und die Leistung beim Dup…
arXiv – cs.AI