LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile
Traditionell werden bei der Schulung großer Sprachmodelle (LLMs) die versteckten Zustände zunächst in Logits umgewandelt, bevor der Kreuzentropie-Verlust berechnet wird. Dieser Ansatz erzeugt einen enormen Speicherbedarf, weil die Logits‑Tensoren die gesamte Wortschatzgröße enthalten, obwohl letztlich nur ein Zieltoken pro Position verwendet wird.
In der neuen Studie wird dieser Zwischenschritt überflüssig gemacht: Der Verlust wird direkt aus den versteckten Zuständen und den Zieltokens berechnet, ohne die Logits explizit zu materialisieren. Dadurch sinkt der Speicherverbrauch drastisch und die Bandbreite des GPU‑Speichers wird entlastet.
Experimentelle Ergebnisse zeigen, dass die Methode nicht nur Speicher spart, sondern auch die Trainingsgeschwindigkeit erhöht. Große Batchgrößen und längere Sequenzen können nun ohne Genauigkeitsverlust eingesetzt werden, was die Skalierbarkeit von LLMs deutlich verbessert.
Die Arbeit unterstreicht, wie ein gezieltes Umdenken der Grenzen zwischen Projektion und Vorhersage zu praktischen Systemoptimierungen führen kann, die die Effizienz von LLM‑Training nachhaltig steigern.