Modeling Transformers as complex networks to analyze learning dynamics
Anzeige
Ähnliche Artikel
arXiv – cs.AI
•
Neues Verfahren steigert Tiefen-Generalisierung von Sprachmodellen bei Logikaufgaben
arXiv – cs.LG
•
Effiziente Fakten‑Speicher‑MLPs für Transformer: Neuer Ansatz
arXiv – cs.AI
•
On the Emergence of Induction Heads for In-Context Learning
arXiv – cs.AI
•
CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs
arXiv – cs.AI
•
Hallucination reduction with CASAL: Contrastive Activation Steering For Amortized Learning
arXiv – cs.LG
•
Understanding and Enhancing Mask-Based Pretraining towards Universal Representations