Neue RNNs mit selektiver Aktualisierung meistern Langzeitsequenzen effizient
In realen Audio- und Videodaten liegen wichtige Informationen oft in langen stillen oder verrauschten Abschnitten verborgen. Klassische rekurrente neuronale Netze (RNNs) aktualisieren jedoch bei jedem Zeitschritt ihren Zustand, selbst wenn die Eingabe unverändert bleibt. Diese ständige Aktivität führt zu einem „Memory‑Decay“, wodurch das Modell Schwierigkeiten hat, frühere Ereignisse zu berücksichtigen.
Die neue Architektur, die sogenannte Selective‑Update RNN (suRNN), löst dieses Problem, indem sie jedem Neuron einen binären Schalter zuweist, der nur bei informativen Ereignissen aktiviert wird. Dadurch werden die rekurrenten Updates von der reinen Sequenzlänge entkoppelt und das Modell kann sein Gedächtnis während ruhiger Intervalle exakt beibehalten. Diese Mechanik schafft einen direkten Pfad für Gradienten, sodass das Lernen über lange Zeiträume hinweg effektiver wird.
In umfangreichen Tests auf dem Long‑Range‑Arena‑Benchmark, WikiText und synthetischen Datensätzen übertrifft die suRNN‑Architektur die Leistung komplexerer Modelle wie Transformers, während sie gleichzeitig deutlich effizienter bei der Speicherung von Langzeitinformationen ist. Durch das Lernen individueller Update‑Zeitschalen für jedes Neuron wird die Diskrepanz zwischen Sequenzlänge und tatsächlicher Informationsdichte aufgehoben.
Die Arbeit liefert damit einen prinzipiellen Ansatz zur Handhabung der zeitlichen Informationsdichte in Sequenzdaten und eröffnet neue Möglichkeiten für die effiziente Modellierung von Langzeitabhängigkeiten.