Partial Action Replacement: Lösung für Verteilungsverschiebung im Offline-MARL
Offline-Multi-Agenten-Lernalgorithmen (MARL) kämpfen stark mit der Bewertung von Aktionen, die außerhalb der im Datensatz vertretenen Verteilung liegen. Die neueste Forschung zeigt, dass bei einer faktorisieren Verhaltenstrategie – bei der Agenten während der Datensammlung weitgehend unabhängig handeln – ein Ansatz namens Partial Action Replacement (PAR) das Problem deutlich mildern kann.