Forschung
LLM-Training ohne Logits: Speicher- und Geschwindigkeitsvorteile
Traditionell werden bei der Schulung großer Sprachmodelle (LLMs) die versteckten Zustände zunächst in Logits umgewandelt, bevor der Kreuzen…
arXiv – cs.LG