MulFeRL: Verstärktes RL durch verbale Rückmeldungen in Mehrfachschleifen
Das neu veröffentlichte Verfahren MulFeRL kombiniert Verstärkendes Lernen mit strukturiertem verbalen Feedback, um die Leistungsfähigkeit von Modellen in komplexen Aufgaben zu steigern. Durch die Einbindung von Rückmeldungen, die über reine numerische Belohnungen hinausgehen, kann das System gezielt an den Stellen lernen, an denen es zuvor versagt hat.