N-ReLU: Stochastische Erweiterung von ReLU ohne tote Neuronen
Aktivierungsfunktionen sind das Herzstück von Deep‑Learning‑Modellen, denn sie ermöglichen nichtlineare Darstellungen. Die weit verbreitete ReLU (Rectified Linear Unit) hat jedoch ein bekanntes Problem: Neuronen, die dauerhaft negative Eingaben erhalten, werden zu „toten“ Neuronen und blockieren den Gradientenfluss. Um dieses Problem zu lösen, wurde N‑ReLU (Noise‑ReLU) entwickelt – eine stochastische Variante, die negative Aktivierungen durch zentrierte Gauß‑Rauschen ersetzt, ohne den Erwartungswert der Ausgabe zu verändern.
Durch die Erhaltung des Erwartungswerts bleibt der Gradient in den zuvor inaktiven Bereichen erhalten, wodurch N‑ReLU als sanfter Regularisierer wirkt. In Experimenten mit dem MNIST‑Datensatz, sowohl bei klassischen Multilayer‑Perzeptronen als auch bei Convolutional‑Neural‑Networks, zeigte N‑ReLU eine Genauigkeit, die ReLU, LeakyReLU, PReLU, GELU und RReLU bei moderaten Rauschstärken (σ = 0,05–0,10) gleich oder leicht übertraf. Gleichzeitig wurden keine toten Neuronen beobachtet und die Konvergenz blieb stabil.
Die Ergebnisse deuten darauf hin, dass die Einfügung von leichtem Gauß‑Rauschen eine unkomplizierte, aber wirkungsvolle Methode ist, um die Optimierungsrobustheit zu erhöhen, ohne Netzwerkarchitekturen zu verändern oder zusätzliche Parameter einzuführen. N‑ReLU bietet damit eine attraktive Alternative für Entwickler, die die Leistungsfähigkeit von ReLU erweitern möchten.