Attractor Patch Networks: Katastrophales Vergessen verhindern

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Transformers haben die Sprachmodellierung revolutioniert, doch ihre dichten, globalen Feed‑Forward‑Netzwerke (FFNs) verbrauchen für jedes Token dieselbe Rechenleistung und teilen ihre Gewichte über alle Kontexte hinweg. Diese Eigenschaften führen zu ineffizienter Nutzung von Rechenressourcen und zu starkem Interference‑Problem beim kontinuierlichen Lernen.

Die neue Architektur Attractor Patch Networks (APN) ersetzt das klassische FFN durch ein Bank-System aus Patch‑Experten. Für jeden Token wählt ein Ähnlichkeitsrouter ein kleines Set von Top‑k‑Patches aus, indem er die Token‑Repräsentation mit vortrainierten Prototypen vergleicht. Jeder ausgewählte Patch liefert eine kompakte, low‑rank Residual‑Aktualisierung, die an einen kurzen Code gebunden ist. So entstehen bedingte, kontextabhängige Transformationen, ohne die Standard‑Transformer‑Schnittstelle zu verändern.

Die Autoren formalisierten APN als Klasse von Stückweise‑low‑rank‑Residualfunktionen, bewiesen deren Ausdruckskraft und entwickelten einfache Argumente für geringe Interference und hohe Stabilität. Diese Eigenschaften machen APN besonders geeignet für Szenarien, in denen Modelle kontinuierlich an neue Datenströme angepasst werden müssen.

In Experimenten zum character‑level Sprachmodellieren erreichte APN eine Perplexität von 4,57 im Vergleich zu 4,32 des Basismodells, während die Fähigkeit zur kontinuierlichen Anpassung deutlich verbessert wurde. Beim Anpassen an einen verschobenen Domain‑Shift verbesserte sich die Leistung um das 2,6‑fache, was APN als vielversprechende Lösung gegen katastrophales Vergessen positioniert.

Ähnliche Artikel