Multiagent‑Lernsystem für Verkehrssteuerung erreicht stabile Konvergenz
In schnell wachsenden Städten wie Bangalore verschärft die zunehmende Urbanisierung die Verkehrsbelastung und macht ein effizientes Verkehrssignalsteuerungssystem (TSC) unerlässlich. Multi‑Agent Reinforcement Learning (MARL) hat sich dabei als vielversprechende Lösung etabliert, indem jedes Ampelsignal als eigenständiger Agent mit Q‑Learning agiert.
Frühere Studien konnten die Wirksamkeit dieses Ansatzes empirisch belegen, jedoch fehlte bislang eine fundierte theoretische Analyse der Stabilität und Konvergenz. Das neue Papier schließt diese Lücke, indem es die mathematischen Grundlagen des Multi‑Agent‑Algorithmus für TSC untersucht.
Durch den Einsatz von stochastischen Approximationstechniken wird das Lernverhalten der unabhängigen Agenten formal analysiert. Der zentrale Beitrag des Artikels ist der Beweis, dass der spezifische MARL‑Algorithmus unter den definierten Bedingungen konvergiert – ein Ergebnis, das die bekannten Konvergenztheoreme für asynchrone Wertiteration bei einzelnen Agenten erweitert.