ReCouPLe: Sprachbasierte Rationalisierung verbessert robuste Belohnungslernen
In der Welt des maschinellen Lernens ist das Belohnungslernen, das auf Nutzerpräferenzen basiert, ein zentrales Werkzeug, um Agenten so zu steuern, dass sie menschliche Wünsche erfüllen. Doch die üblicherweise eingesetz…