ReLU-Netzwerke im Fokus: Trainingseffekte sichtbar gemacht
Eine neue Analyse auf arXiv (2511.05628) zeigt, wie man tiefgehende ReLU‑Netze in ein einzelnes lineares Modell überführt, um deren Lernverhalten besser zu verstehen. Durch die Aktivierungsmuster der ReLU‑Einheiten entsteht für jedes Eingabeexemplar ein einzigartiger Rechenpfad, der bestimmte Gewichte ausblendet. Die aktiven Gewichte aller Schichten werden zu einer effektiven Gewichtsmatrix W_eff(x) zusammengefasst, die das Eingabe‑Ausgabe‑Verhältnis für diesen Sample direkt beschreibt.