Lexikografische Bandits: Regret-Minimierung trifft Arm-Identifikation
In einem neuen Beitrag auf arXiv wird ein bedeutender Fortschritt im Bereich der mehrdimensionalen Entscheidungsfindung vorgestellt. Die Autoren untersuchen lexikografische Bandits, ein Modell, bei dem mehrere Belohnungsziele in einer festen Prioritätenreihenfolge optimiert werden. Während frühere Arbeiten sich hauptsächlich auf die Minimierung von Regret konzentrierten, schließen die Forscher hier die Lücke zwischen Regret‑Minimierung und der Identifikation des besten Arms.