Neues RL-Modell verbessert kreative Schreibqualität und Regelkonformität
Forscher haben ein neues Reinforcement-Learning-Verfahren namens RLMR entwickelt, das große Sprachmodelle gezielt für kreatives Schreiben trainiert. Dabei wird ein dynamisches Belohnungssystem eingesetzt, das gleichzeitig die subjektive Schreibqualität – etwa Literarität und emotionale Wirkung – sowie die Einhaltung objektiver Vorgaben wie Formatregeln und Wortlimits berücksichtigt.