Generative Early Stage Ranking: Mehr Präzision durch neue Attention-Module
In der Welt der großen Empfehlungssysteme wird häufig ein mehrstufiges Ranking eingesetzt, um sowohl Effektivität als auch Effizienz zu gewährleisten. Das Early Stage Ranking (ESR) nutzt dabei die Technik des „User‑Item‑Decouplings“, bei dem Nutzer‑ und Artikelrepräsentationen unabhängig voneinander gelernt und erst im letzten Schritt kombiniert werden. Diese Architektur ist zwar ressourcenschonend, lässt jedoch wichtige feine Nutzer‑Artikel‑Affinitäten und Quersignale unberücksichtigt.
Um diese Lücke zu schließen, wurde das Generative Early Stage Ranking (GESR) entwickelt. Im Kern steht das Mixture of Attention (MoA) – ein Modul, das mehrere Attention‑Mechanismen kombiniert. Das Hard Matching Attention (HMA) erfasst explizite Quersignale, indem es rohe Übereinstimmungszahlen zwischen Nutzer‑ und Artikelmerkmalen berechnet. Das Target‑Aware Self‑Attention erzeugt nutzer‑spezifische Repräsentationen, die auf das jeweilige Ziel (den Artikel) abgestimmt sind, während Cross‑Attention‑Module frühzeitig und reichhaltiger Interaktionen zwischen den Merkmalen ermöglichen.
Die durch MoA gewonnenen Embeddings werden im Endschritt durch ein Multi‑Logit Parameterized Gating (MLPG) verfeinert. Dieses Gating‑Modul integriert die neuen Vektoren, erzeugt zusätzliche Logits und fusioniert diese mit dem primären Logit, wodurch die Vorhersagekraft weiter gesteigert wird. Parallel dazu wurden umfangreiche Optimierungen eingeführt – von maßgeschneiderten Kerneln, die die neuesten Hardware‑Fähigkeiten voll ausnutzen, bis hin zu effizienten Serving‑Lösungen, die Latenz und Rechenaufwand minimieren.