FaTRQ: Tiered Residual Quantization steigert Vektor-Suche um bis zu 9×

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Die neue Methode FaTRQ (Far‑Memory‑Aware Tiered Residual Quantization) revolutioniert die Suche nach ähnlichen Vektoren in großen Datenbanken. Durch den Einsatz von mehrstufigem Speicher wird die bisher notwendige, kostenintensive zweite Durchlauf‑Optimierung, bei dem komplette Vektoren aus langsamen Speichern wie SSDs gelesen werden, komplett vermieden.

FaTRQ nutzt einen progressiven Distanz‑Estimator, der die groben Scores mithilfe kompakter Residuen, die aus dem entfernten Speicher gestreamt werden, verfeinert. Sobald ein Kandidat eindeutig außerhalb der Top‑k liegt, wird die Berechnung frühzeitig abgebrochen. Dadurch sinkt die Latenz drastisch, denn die meisten Leseoperationen aus langsamen Speichern entfällt.

Die Technik basiert auf tiered residual quantization, bei dem Residuen als ternäre Werte kodiert und effizient im entfernten Speicher abgelegt werden. Ein spezieller Accelerator in einem CXL‑Typ‑2‑Gerät führt die niedrigen Latenz‑Optimierungen lokal durch. Das Ergebnis: FaTRQ steigert die Speicher‑Effizienz um das 2,4‑fache und die Durchsatzrate um bis zu neunmal im Vergleich zu aktuellen GPU‑basierten ANNS‑Systemen.

Ähnliche Artikel