Neue Glaubensinertie: Harte Regret‑Grenzen bei nicht‑stationären Bandits

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer kürzlich veröffentlichten Studie auf arXiv wird ein völlig neuer Ansatz zur Analyse von Regret‑Grenzen in nicht‑stationären Multi‑Armed Bandits vorgestellt. Während die klassische Minimax‑Theorie für stationäre Bandits gut etabliert ist, bleibt die Bestimmung von Worst‑Case‑Regret in Zeit‑variierenden Szenarien bislang schwierig.

Der Schlüssel liegt in der sogenannten „Glaubensinertie“. Anstatt auf die üblichen, seltenen Sampling‑Argumente zurückzugreifen, untersucht die Arbeit, wie die empirischen Überzeugungen eines Algorithmus – basierend auf historischen Belohnungsdurchschnitten – eine Art Momentum erzeugen, das neue Evidenz nach einer Änderung widersteht. Dieses Momentum kann gezielt ausgenutzt werden, um klassische Algorithmen wie Explore‑Then‑Commit, ε‑Greedy und UCB zu täuschen.

Die Ergebnisse zeigen, dass diese klassischen Strategien trotz beliebiger Parameterwahl einen linearen Regret‑Wachstum von T erfahren, selbst wenn nur ein einzelner Änderungspunkt vorliegt. Auch Algorithmen, die periodisch neu starten, um Nicht‑Stationarität zu handhaben, bleiben im Worst‑Case linear in T. Damit demonstriert die Arbeit, dass die Nutzung von Glaubensinertie ein mächtiges Werkzeug zur Ableitung scharfer Lower Bounds in nicht‑stationären Bandits darstellt.

Ähnliche Artikel