Neues Framework LHRL verbessert Fairness und Engagement in Kurzvideo-Algorithmen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv-Posting beleuchtet die Fairness in interaktiven Empfehlungssystemen – wie sie bei TikTok oder KuaiShou eingesetzt werden – und präsentiert einen innovativen Ansatz, der die Lebensdauer von Inhalten als Steuerungsparameter nutzt.

Die Autoren zeigen, dass die Lebenszyklen von Kurzvideos in drei komprimierten Phasen verlaufen: rasches Wachstum, kurzzeitige Stabilität und abrupte Abnahme. Dieses Muster weicht deutlich vom klassischen vierstufigen Modell ab und liefert wichtige Erkenntnisse für die Gestaltung von Empfehlungssystemen.

Auf dieser Basis wurde LHRL entwickelt, ein hierarchisches Reinforcement-Learning-Framework, das Fairness und Genauigkeit dynamisch in Einklang bringt. Zentrale Bausteine sind PhaseFormer, ein leichtgewichtiges Encoder-Modul zur präzisen Phasenidentifikation, und ein zweistufiger HRL-Agent. Der High‑Level-Agent setzt phasenabhängige Fairness‑Beschränkungen, während der Low‑Level-Agent die unmittelbare Nutzerbindung optimiert. Durch diese getrennte Optimierung wird ein effektiver Kompromiss zwischen langfristiger Gerechtigkeit und kurzfristiger Nutzen erzielt.

Experimentelle Ergebnisse auf mehreren realen Datensätzen belegen, dass LHRL sowohl die Fairness als auch das Nutzerengagement deutlich steigert. Darüber hinaus demonstriert die Integration von lebenszyklus‑sensiblen Belohnungen in bestehende RL‑Modelle konsistente Leistungsverbesserungen, was die Vielseitigkeit und Praxisrelevanz des Ansatzes unterstreicht.

Ähnliche Artikel