FlashSampling: Schnelles, speichereffizientes Exact Sampling für LLMs
FlashSampling ist ein neues, exakt arbeitendes Sampling-Primitive, das die Stichprobe direkt in die Matrix‑Multiplikation des LM‑Heads einbettet. Dadurch entfällt die Materialisierung des Logits‑Tensors im Hauptspeicher…