Forschung
Ohne Belohnungen: Beobachter lernen optimale Politik aus Aktionen
In der neuen Studie zum Inverse Contextual Bandit (ICB) wird untersucht, wie ein Beobachter ohne Zugriff auf Belohnungen die zugrunde liege…
arXiv – cs.LG