Transformers verarbeiten seltene Tokens ohne Clustering oder Routing
Neues Forschungsergebnis aus dem arXiv-Preprint 2509.04479 zeigt, dass große Sprachmodelle seltene Tokens nicht über modulare Cluster, sondern über ein dezentralisiertes Netzwerk spezialisierter Neuronen verarbeiten. Di…