Fairness in Empfehlungssystemen: Latente Präferenzen bereinigen, RL optimieren
Recommender‑Systeme, die auf Reinforcement Learning (RL) basieren, werden immer beliebter, weil sie die fortlaufende Interaktion zwischen Nutzer und System berücksichtigen. Doch bisherige Ansätze zur Fairness gehen häufig davon aus, dass die beobachteten Nutzerdaten die wahren Präferenzen exakt widerspiegeln. In Wirklichkeit sind diese Daten jedoch von Popularitäts‑ und Expositions‑Bias durchdrungen, was die RL‑Agenten in die Irre führt und zu einer verzerrten Wahrnehmung des Nutzerzustands führt.
Die neue Methode namens DSRM‑HRL stellt dieses Problem als ein Problem der latenten Zustandsbereinigung dar. Durch einen Denoising State Representation Module (DSRM), der auf Diffusionsmodellen basiert, wird das verrauschte Interaktionsverhalten in ein niedrig‑Entropie‑Latent‑Präferenz‑Manifold zurückgeführt. Auf dieser gereinigten Basis agiert ein hierarchisches RL‑Agenten‑System, das die widersprüchlichen Ziele von Genauigkeit und Fairness trennt: eine High‑Level‑Policy steuert langfristige Fairness‑Richtungen, während eine Low‑Level‑Policy kurzfristige Engagement‑Ziele unter diesen dynamischen Vorgaben optimiert.
Experimentelle Tests auf hochrealistischen Simulationsumgebungen wie KuaiRec und KuaiRand zeigen, dass DSRM‑HRL den sogenannten „Rich‑Get‑Richer“-Feedback‑Loop effektiv durchbricht. Das Ergebnis ist ein deutlich verbessertes Pareto‑Frontier zwischen Empfehlungsnützlichkeit und Ausgleich von Sichtbarkeit, was die Methode zu einem vielversprechenden Ansatz für gerechtere und gleichzeitig leistungsfähige Empfehlungssysteme macht.