LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile
Traditionell werden bei der Schulung großer Sprachmodelle (LLMs) die versteckten Zustände zunächst in Logits umgewandelt, bevor der Kreuzentropie-Verlust berechnet wird. Dieser Ansatz erzeugt einen enormen Speicherbedarf, weil die Logits‑Tensoren die gesamte Wortschatzgröße enthalten, obwohl letztlich nur ein Zieltoken pro Position verwendet wird.