Aspiration-basierte Automata stabilisieren Spiele mit verrauschten Nutzenmessungen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einem neuen Beitrag auf arXiv wird ein innovatives Lernverfahren vorgestellt, das die Grenzen herkömmlicher Verstärkungslernalgorithmen in verteilten Mehrspieler‑Spielen überwindet. Das Verfahren, genannt Aspiration‑Based Perturbed Learning Automata (APLA), kombiniert die klassische Verstärkung von Aktionen mit einem Aspiration‑Faktor, der die Zufriedenheit des Spielers widerspiegelt.

Im Gegensatz zu herkömmlichen Lernschemata, die ausschließlich auf wiederholter Auswahl beruhen, berücksichtigt APLA die individuelle Zielerreichung jedes Spielers. Dadurch kann das System in schwach azyklischen Spielen – einer Klasse, die in der Praxis häufig vorkommt – stabile reine Nash‑Gleichgewichte erreichen, selbst wenn die Nutzenmessungen verrauscht sind.

Die erste Teilarbeit liefert eine umfassende stochastische Stabilitätsanalyse von APLA in positiven Nutzen‑Spielen. Dabei wird gezeigt, dass die durch das Verfahren erzeugte unendliche Markov‑Kette äquivalent zu einer endlichdimensionalen Kette ist, was die Analyse erheblich vereinfacht. Diese Erkenntnis gilt für generische Nicht‑Null‑Sum‑Spiele und bildet die Grundlage für weitere Untersuchungen.

In der zweiten Teilarbeit wird die Stabilitätsanalyse auf schwach azyklische Spiele spezialisiert, wodurch die praktische Anwendbarkeit von APLA in verteilten Optimierungsaufgaben noch weiter gestärkt wird. Der Ansatz verspricht damit neue Möglichkeiten für robuste, verteilte Lernalgorithmen in der Wirtschaft, Technik und in der Modellierung menschlichen Verhaltens.

Ähnliche Artikel