IMU-1: Mit 72 B Tokens ein kleines Modell, das große Konkurrenz schlägt
Ein neues Sprachmodell namens IMU‑1, das mit nur 430 Mio. Parametern und 72 B Tokens trainiert wurde, erreicht Leistungen, die bisher nur bei Modellen mit 56‑fach mehr Daten erzielt wurden. Die Entwickler haben eine sorgfältig validierte Trainingsmethode entwickelt, die moderne architektonische Neuerungen mit fortschrittlichen Optimierungstechniken kombiniert.