Initial Bias in Deep Networks: Wie Verlustfunktionen die Lernphase beeinflussen
Untrainierte, große neuronale Netzwerke zeigen unmittelbar nach der zufälligen Initialisierung ein starkes Vorzeichen: Sie bevorzugen ein kleines Subset an Klassen und weisen diesen Klassen hohe Vorhersagewahrscheinlichkeiten zu, während alle anderen Klassen nahezu null erhalten. Dieses Phänomen, das als Initial Guessing Bias bezeichnet wird, wirkt sich bereits in der allerersten Lernphase aus, wenn das Modell die grobe Struktur der Daten erfasst.