MIR: Effiziente Erkundung in episodischem Multi-Agent RL durch Belohnung
In der Welt des Reinforcement Learning stellen episodische Belohnungen ein großes Problem dar: Sie sind selten und schwer zu erreichen, besonders wenn mehrere Agenten gleichzeitig handeln. Während intrinsische Belohnungssysteme in Ein-Agenten-Szenarien bereits Erfolge verzeichnet haben, stoßen sie bei Multi-Agent Reinforcement Learning (MARL) auf zwei Hauptprobleme: die exponentielle Sparsamkeit gemeinsamer Aktionsfolgen und die fehlende Berücksichtigung von Aktionen, die den Zustand des gesamten Teams beeinflussen.