CollectiveKV: Nutzerübergreifende KV-Caches für schnellere Empfehlungssysteme

In der Welt der sequentiellen Empfehlungssysteme ist Geschwindigkeit entscheidend. Transformer‑basierte Modelle liefern zwar exzellente Ergebnisse, doch ihre Rechenkomplexität steigt mit der Sequenzlänge, was bei langen Nutzerhistorien zu erheblichen Latenzproblemen führt.

Eine vielversprechende Lösung ist die Verwendung von KV‑Caches, die die Inferenzzeit drastisch senken. Das Problem: Diese Caches benötigen enormen Speicherplatz, insbesondere wenn Millionen von Nutzern mit langen Historien betrieben werden.

Die Autoren von CollectiveKV haben ein faszinierendes Phänomen entdeckt: KV‑Sequenzen verschiedener Nutzer weisen starke Ähnlichkeiten auf, was auf kollaborative Signale hinweist. Durch eine Singular Value Decomposition (SVD) konnten sie zeigen, dass der Großteil der KV‑Informationen übertragbar ist, während nur ein kleiner Teil nutzerspezifisch bleibt.

Auf dieser Erkenntnis basiert das neue Konzept CollectiveKV. Es nutzt einen lernbaren globalen KV‑Pool, der die gemeinsam genutzten Informationen speichert. Bei der Inferenz holt jeder Nutzer zunächst die hochdimensionalen, gemeinsam genutzten KV‑Daten aus dem Pool und verbindet sie mit einem kompakteren, nutzerspezifischen KV‑Segment. Das Ergebnis ist ein stark komprimierter Cache, der gleichzeitig die Modellleistung erhält oder sogar verbessert.

Experimentelle Tests auf fünf verschiedenen sequentiellen Modellen und drei unterschiedlichen Datensätzen zeigen, dass CollectiveKV den KV‑Cache auf lediglich 0,8 % seiner ursprünglichen Größe reduzieren kann – ohne Leistungseinbußen. Diese Innovation könnte die nächste Generation von Empfehlungssystemen beschleunigen und gleichzeitig Speicherressourcen schonen.

Ähnliche Artikel

🍪 Cookie-Einstellungen