MERIT: Neuer Optimierer ermöglicht 6.000‑Stichproben‑Batch ohne Leistungsverlust
Die Beschleunigung des Trainings großer neuronaler Netzwerke durch große Batch‑Größen ist heute ein entscheidender Faktor. Gleichzeitig stellen diese Batch‑Größen jedoch erhebliche Optimierungs‑ und Generalisierungsprob…