Energieeinsparungen durch spekulatives Decoding: Benchmark-Analyse
Spekulatives Decoding hat sich als wirkungsvolle Technik etabliert, um die Latenz und die Kosten von LLM‑Inference zu senken. Trotz dieser Fortschritte wurde die Energieeffizienz dieser Modelle bislang zu wenig untersuc…