DSL: Softmax-Recommender-Systeme mit kompetenzbewusster Skalierung optimieren

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

In den letzten Jahren hat der Softmax‑Loss (SL) in Empfehlungssystemen an Beliebtheit gewonnen, weil er bessere Ergebnisse, Robustheit und Fairness liefert. Bei implizitem Feedback kann jedoch ein einheitlicher Temperaturparameter und die gleichmäßige Behandlung aller negativ ausgewählten Items zu instabilen Trainingsläufen führen. Das liegt daran, dass die Stichproben unterschiedliche Mengen an relevanten oder informativen Konkurrenten enthalten.

Um dieses Problem zu lösen, stellt die neue Methode Dual‑Scale Softmax Loss (DSL) vor, die die optimale Schärfe des Verlustes direkt aus dem Wettbewerb der aktuellen Stichprobe ableitet. DSL ergänzt die klassische Log‑Sum‑Exp‑Architektur um zwei ergänzende Zweige: Erstens werden die negativen Items innerhalb jeder Trainingsinstanz anhand ihrer Härte und der Ähnlichkeit zwischen Items gewichtet. Zweitens wird für jedes Beispiel eine eigene Temperatur bestimmt, die sich aus der Intensität des Wettbewerbs in einer konstruierten Konkurrenten‑Liste ergibt.

Durch diese beiden Mechanismen bleibt die geometrische Struktur des Softmax‑Losses erhalten, während die Verteilung der Konkurrenz sowohl über die Negativen als auch über die einzelnen Beispiele hinweg neu gestaltet wird. In umfangreichen Benchmarks über verschiedene Modelle und Datensätze hinweg erzielt DSL deutliche Verbesserungen gegenüber dem Standard‑SL, wobei die durchschnittliche Steigerung bei 6,22 % liegt und in einigen Fällen mehr als 10 % erreicht. Unter Bedingungen einer Out‑of‑Distribution‑Veränderung der Popularität der Items sind die Vorteile noch größer, mit durchschnittlichen Verbesserungen von 9,31 %.

Zusätzlich liefert die Arbeit eine theoretische Analyse im Rahmen der distributionally robusten Optimierung (DRO), die zeigt, wie DSL die robuste Belohnung neu verteilt und dadurch die Stabilität des Trainings weiter erhöht.

Ähnliche Artikel