Forschung
FlashSampling: Schnelles, speichereffizientes Exact Sampling für LLMs
FlashSampling ist ein neues, exakt arbeitendes Sampling-Primitive, das die Stichprobe direkt in die Matrix‑Multiplikation des LM‑Heads einb…
arXiv – cs.LG