LLMs neu starten: Präferenzbasierte Politikoptimierung als Durchbruch In einer bahnbrechenden Veröffentlichung auf arXiv wird ein neues Verfahren vorgestellt, das große Sprachmodelle (LLMs) ohne umfangreiche manuelle Anmerkungen an menschliche Vorlieben anpasst. Das Konzept, „präferenzbasierte Politikoptimierung“ (PbPO), nutzt ein Min‑Max‑Spiel zwischen einer Hauptpolicy und einem Belohnungsmodell (RM), wobei letzteres innerhalb eines aus Präferenzdaten abgeleiteten Vertrauensraums eingeschränkt wird, um z

arXiv – cs.AI Original
Anzeige