ReT-2: Universelles multimodales Retrieval mit rekurrenten Transformers

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die Forschung im Bereich multimodaler Retrieval hat einen bedeutenden Fortschritt erzielt: Das neue Modell ReT-2 kombiniert Bilder und Text in einer einzigen Abfrage und durchsucht gleichzeitig Dokumente, die beide Modalitäten enthalten. Durch die Nutzung mehrschichtiger Repräsentationen und einer rekurrenten Transformer-Architektur mit LSTM‑inspirierten Gating‑Mechanismen kann ReT-2 Informationen dynamisch über die Schichten hinweg integrieren und dabei feine visuelle sowie textuelle Details erfassen.

In umfangreichen Tests auf den anspruchsvollen M2KR‑ und M‑BEIR‑Benchmarks über verschiedene Retrieval‑Konfigurationen hinweg hat ReT-2 konsequent die bisher beste Leistung erzielt. Gleichzeitig bietet es schnellere Inferenzzeiten und einen geringeren Speicherbedarf als frühere Ansätze. Diese Effizienzsteigerung macht das Modell besonders attraktiv für den Einsatz in Echtzeit‑Anwendungen.

Die Integration von ReT-2 in Retrieval‑Augmented‑Generation‑Pipelines führt zu einer verbesserten Performance bei Aufgaben wie Encyclopedic‑VQA und InfoSeek. Der komplette Quellcode sowie vortrainierte Modelle stehen öffentlich auf GitHub zur Verfügung, was die Weiterentwicklung und Anwendung in der Community erleichtert.

Ähnliche Artikel