Matrix-Preconditionierte Optimierer liefern stabile Geschwindigkeitsvorteile Skalierung
In jüngster Zeit haben Optimierer, die Matrix‑Preconditioning einsetzen, vielversprechende Beschleunigungen gegenüber dem derzeit dominanten AdamW gezeigt – vor allem in kleineren Experimenten. Die Reproduzierbarkeit di…