NaCS: Noise‑aware Coreset Selection erhöht Effizienz von Empfehlungssystemen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Ein neues arXiv‑Veröffentlichung präsentiert NaCS, ein innovatives Verfahren, das die Trainingszeit von Content‑Based Recommendation Systemen drastisch reduziert, ohne dabei die Genauigkeit zu opfern.

Content‑Based Recommendation Systeme (CRSs) nutzen Inhalte, um Vorhersagen über Nutzer‑Item‑Interaktionen zu treffen. Damit sie aktuelle Nutzerpräferenzen widerspiegeln, müssen sie häufig mit riesigen Datenmengen trainiert werden – ein Prozess, der enorme Rechenressourcen erfordert. Hinzu kommt, dass die Interaktionsdaten häufig verrauscht sind, was die Modellqualität zusätzlich gefährdet.

NaCS adressiert diese Herausforderungen, indem es zunächst mittels submodularer Optimierung ein kleines, aber repräsentatives Coreset aus den Trainingsdaten auswählt. Parallel dazu korrigiert ein schrittweise trainiertes Modell die verrauschten Labels. Anschließend werden Unsicherheitsmessungen eingesetzt, um niedrig‑zuverlässige Samples zu filtern, sodass das Modell nur mit vertrauenswürdigen Interaktionen trainiert wird.

Die Experimente zeigen, dass NaCS mit lediglich 1 % der ursprünglichen Trainingsdaten 93 – 95 % der Leistung eines vollständigen Trainings erreicht. Der dazugehörige Code ist unter https://github.com/chenxing1999/nacs verfügbar und ermöglicht Forschern sowie Entwicklern, die Effizienz ihrer Empfehlungssysteme sofort zu steigern.

Ähnliche Artikel