LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile
Traditionell werden bei der Schulung großer Sprachmodelle (LLMs) die versteckten Zustände zunächst in Logits umgewandelt, bevor der Kreuzentropie-Verlust berechnet wird. Dieser Ansatz erzeugt einen enormen Speicherbedar…