RePULSe: Neue Methode reduziert unerwünschte Ausgaben von Sprachmodellen
In der aktuellen Forschung zur Ausrichtung von Sprachmodellen auf menschliche Präferenzen wird Reinforcement Learning (RL) häufig eingesetzt, um die durchschnittliche Belohnung zu maximieren. Dabei kann die Reduktion von unerwünschten Ausgaben jedoch zu Lasten der durchschnittlichen Leistung gehen.