AHTSGD: Neuer Optimierer steigert Generalisierung neuronaler Netze
In der heutigen Ära großer neuronaler Netzwerke kämpfen Optimierungsalgorithmen häufig damit, dass die Modelle zu stark auf den Trainingsverlust fokussiert sind und dadurch die Generalisierung leidet. Forschungen zeigen, dass breite Minima – Bereiche um ein lokales Minimum, in denen der Verlust allmählich ansteigt – die Stabilität gegenüber kleinen Eingabe- oder Parameteränderungen erhöhen und somit die Generalisierung verbessern. Im Gegensatz dazu sind scharfe Minima empfindlicher und weniger robust.