Semantischer Cache für heterogene LLM-Workloads: Kategorie‑basierte Optimierung
In modernen LLM‑Serving‑Systemen kommen stark unterschiedliche Anfragen zusammen: Code‑Abfragen bilden dichte Cluster im Einbettungsraum, während Konversationsanfragen weit verstreut sind. Gleichzeitig variiert die Date…