IMU-1: Mit 72 B Tokens ein kleines Modell, das große Konkurrenz schlägt
Ein neues Sprachmodell namens IMU‑1, das mit nur 430 Mio. Parametern und 72 B Tokens trainiert wurde, erreicht Leistungen, die bisher nur bei Modellen mit 56‑fach mehr Daten erzielt wurden. Die Entwickler haben eine sor…