Energieeffizienz bei LLM-Inferezen: optimale Eingabe-/Ausgabe-Längen
Die Energie, die große Sprachmodelle (LLMs) bei der Inferenz verbrauchen, ist ein entscheidender Faktor für moderne KI-Anwendungen. Traditionelle Schätzungen beruhen meist auf einfachen linearen Funktionen, die die Eingabe- und Ausgabesequenzlängen berücksichtigen. Diese Vereinfachungen vernachlässigen jedoch wichtige nichtlineare Effekte, die die tatsächliche Energieeffizienz stark beeinflussen.