Attractor Patch Networks: Katastrophales Vergessen verhindern
Transformers haben die Sprachmodellierung revolutioniert, doch ihre dichten, globalen Feed‑Forward‑Netzwerke (FFNs) verbrauchen für jedes Token dieselbe Rechenleistung und teilen ihre Gewichte über alle Kontexte hinweg…