Optimale Lernraten-Strategien für große Sprachmodelle
Eine neue Studie zeigt, dass Lernratenpläne – insbesondere der Warmup‑Steady‑Decay‑Scheduler – für große Sprachmodelle optimiert werden können, ohne jedes Mal umfangreiche Hyperparameter‑Suchen durchzuführen. Das Team h…