Lexikografische Bandits: Regret-Minimierung trifft Arm-Identifikation
In einem neuen Beitrag auf arXiv wird ein bedeutender Fortschritt im Bereich der mehrdimensionalen Entscheidungsfindung vorgestellt. Die Autoren untersuchen lexikografische Bandits, ein Modell, bei dem mehrere Belohnung…