OSPO: Neuer RL-Algorithmus verbessert generative LLMs bei personalisierten Empfehlungen
Large Language Models (LLMs) werden zunehmend mit Reinforcement Learning (RL) für personalisierte Empfehlungssysteme trainiert. Traditionelle Ansätze wie GRPO nutzen jedoch spärliche, sequentielle Belohnungen, die zu ei…