Reinforcement Learning nach dem Training: Mit gemischten Belohnungen Sudoku besser lösen
Reinforcement‑Learning‑Posttraining optimiert üblicherweise nur einen einzigen Skalarwert und nutzt dabei kaum die Struktur, wie Lösungen tatsächlich erzeugt werden. In einer neuen Studie wurde untersucht, ob ein zusätz…