Forschung
Reward-Zero: Sprachbasierte Implicit-Reward-Mechanismen für RL
Forscher haben ein neues Tool namens Reward-Zero vorgestellt, das natürliche Sprachbeschreibungen von Aufgaben in kontinuierliche Fortschri…
arXiv – cs.LG