Skalierbare Messung der Verlustkurvatur für die Analyse von LLM-Trainingsdynamik
Neues Forschungsergebnis aus dem Bereich der künstlichen Intelligenz liefert ein praktisches Werkzeug, um die Krümmung des Verlustlandschapes bei großen Sprachmodellen zu messen. Der Ansatz, der als „kritische Schärfe“…