Neues Netzwerk-Framework für Multi-Armed Bandits mit Reinforcement Learning
Multi-Armed Bandits (MABs) sind ein bewährtes Werkzeug für sequentielle Entscheidungen, das vor allem in der Ressourcenallokation und bei der Optimierung von Interventionen im Gesundheitswesen eingesetzt wird. Die klassische Variante, die sogenannte Restless Multi-Armed Bandits (RMABs), geht jedoch von unabhängigen Arms aus – ein Modell, das in realen Netzwerken oft zu kurz greift, weil dort häufig Interaktionen zwischen den Akteuren bestehen.
In der vorliegenden Arbeit wird ein neues Konzept namens Networked RMAB vorgestellt. Dabei wird das RMAB-Framework mit dem unabhängigen Cascade-Modell kombiniert, um die Wechselwirkungen zwischen den Arms in vernetzten Umgebungen explizit zu berücksichtigen. Für dieses erweiterte Modell wird die Bellman-Gleichung definiert, deren Berechnung jedoch durch die exponentiell wachsende Größe von Aktions- und Zustandsräumen stark erschwert wird.
Um die Rechenlast zu reduzieren, wird gezeigt, dass die Bellman-Gleichung submodulär ist. Auf dieser Basis wird ein Hill‑Climbing-Algorithmus eingesetzt, der eine Approximation mit dem Faktor 1 – 1/e liefert. Zusätzlich wird bewiesen, dass die approximierten Bellman‑Updates durch eine angepasste Kontraktionsanalyse konvergieren, was die theoretische Stabilität des Ansatzes garantiert.
Die theoretischen Erkenntnisse werden in einem effizienten Q‑Learning‑Algorithmus umgesetzt, der speziell auf das Netzwerk‑Setting zugeschnitten ist. In Experimenten mit realen Graphdaten übertrifft dieser Ansatz sowohl k‑Schritt‑Look‑Ahead-Methoden als auch netzwerk‑blindes Vorgehen deutlich. Die Ergebnisse unterstreichen, wie entscheidend die Berücksichtigung von Netzwerk‑Effekten ist, wenn sie vorhanden sind, und zeigen die Leistungsfähigkeit des neuen Frameworks auf.