Neue Glaubensinertie: Harte Regret‑Grenzen bei nicht‑stationären Bandits
In einer kürzlich veröffentlichten Studie auf arXiv wird ein völlig neuer Ansatz zur Analyse von Regret‑Grenzen in nicht‑stationären Multi‑Armed Bandits vorgestellt. Während die klassische Minimax‑Theorie für stationäre Bandits gut etabliert ist, bleibt die Bestimmung von Worst‑Case‑Regret in Zeit‑variierenden Szenarien bislang schwierig.