ReT-2: Universelles multimodales Retrieval mit rekurrenten Transformers
Die Forschung im Bereich multimodaler Retrieval hat einen bedeutenden Fortschritt erzielt: Das neue Modell ReT-2 kombiniert Bilder und Text in einer einzigen Abfrage und durchsucht gleichzeitig Dokumente, die beide Modalitäten enthalten. Durch die Nutzung mehrschichtiger Repräsentationen und einer rekurrenten Transformer-Architektur mit LSTM‑inspirierten Gating‑Mechanismen kann ReT-2 Informationen dynamisch über die Schichten hinweg integrieren und dabei feine visuelle sowie textuelle Details erfassen.