Rubrikbasierter Kritiker lernt aus seltenen, verrauschten Echtzeitdaten
In der Forschung zu programmierfähigen Agenten wird häufig die Fähigkeit gemessen, Aufgaben autonom zu lösen, indem man auf überprüfbare Belohnungen wie das Bestehen von Unit‑Tests zurückgreift. Doch in der Praxis arbei…