Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “NFE”
Forschung

<p>Testzeit-Skalierung macht Übertraining rechnerisch optimal</p> <p>Eine neue Studie aus dem arXiv-Repository zeigt, dass die Art und Weise, wie moderne Sprachmodelle bei der Inferenz skaliert werden, die optimale Trainingsstrategie grundlegend verändert. Während bisherige Skalierungsformeln wie Chinchilla nur die Kosten des Pretrainings berücksichtigen, beleuchtet die Arbeit die zusätzlichen Ausgaben, die durch wiederholtes Sampling während der Testphase entstehen.</p> <p>Bei Testzeit-Skalierung wird die

arXiv – cs.LG