Effizienz von LLMs: Quantisierung, Batch-Strategien und Serving senken Energieverbrauch
Large Language Models (LLMs) verschieben den Energiebedarf zunehmend von der Trainingsphase in die Inferenz. In einer neuen Untersuchung auf der Plattform arXiv wird gezeigt, wie systemweite Designentscheidungen – etwa…