Dispersion Loss reduziert Embedding-Condensation und verbessert kleine Sprachmodelle
Die Weiterentwicklung großer Sprachmodelle (LLMs) führt zu beeindruckenden Leistungen, jedoch steigen die Rechenkosten mit jeder zusätzlichen Parameterzahl. Um die Skalierung besser zu verstehen, untersuchten Forscher d…