Partial Action Replacement: Lösung für Verteilungsverschiebung im Offline-MARL
Offline-Multi-Agenten-Lernalgorithmen (MARL) kämpfen stark mit der Bewertung von Aktionen, die außerhalb der im Datensatz vertretenen Verteilung liegen. Die neueste Forschung zeigt, dass bei einer faktorisieren Verhaltenstrategie – bei der Agenten während der Datensammlung weitgehend unabhängig handeln – ein Ansatz namens Partial Action Replacement (PAR) das Problem deutlich mildern kann.
PAR ersetzt bei der Aktualisierung nur einzelne oder Teile der Aktionen eines Agenten, während die übrigen Aktionen unverändert bleiben. Dadurch wird die Verschiebung der Verteilung im Vergleich zu vollständigen Joint-Action-Updates reduziert. Auf dieser Idee basiert der neue Algorithmus Soft-Partial Conservative Q-Learning (SPaCQL), der PAR nutzt und verschiedene PAR-Strategien dynamisch gewichtet, basierend auf der Unsicherheit der Wertschätzung.
Die theoretische Analyse liefert einen soliden Beweis: Unter faktorisierenden Verhaltenstrategien skaliert die induzierte Verteilungsverschiebung linear mit der Anzahl der abweichenden Agenten, anstatt exponentiell mit dem Joint-Action-Raum. Das führt zu einer strengeren Fehlergrenze für die Wertschätzung und zeigt, dass SPaCQL die Verteilungsverschiebung adaptiv mit unsicherheitsinformierten Gewichten adressiert.
Experimentelle Ergebnisse belegen, dass SPaCQL die Politikentwicklung wesentlich effektiver gestaltet und die Leistung gegenüber etablierten Baselines deutlich übertrifft – insbesondere wenn das Offline-Dataset die Unabhängigkeitsstruktur der Agenten widerspiegelt.