Semantischer Cache für heterogene LLM-Workloads: Kategorie‑basierte Optimierung
In modernen LLM‑Serving‑Systemen kommen stark unterschiedliche Anfragen zusammen: Code‑Abfragen bilden dichte Cluster im Einbettungsraum, während Konversationsanfragen weit verstreut sind. Gleichzeitig variiert die Datenstaleheit von Minuten bei Börseninformationen bis zu Monaten bei Code‑Mustern, und die Wiederholungsmuster folgen unterschiedlichen Verteilungen. Diese Vielfalt führt zu einer langen Schwanz‑Verteilung der Cache‑Hit‑Raten: Kategorien mit hoher Wiederholung erreichen 40‑60 % Treffer, während seltene oder volatile Kategorien nur 5‑15 % erzielen.