Neues Lernmodell: Multi-Agent Reinforcement Learning mit Kommunikationsbeschränkungen
Kommunikation gilt als Schlüssel zur Verbesserung kooperativer Strategien in Multi-Agenten-Systemen. In der Praxis treten jedoch häufig Paketverluste auf, die die Effektivität dieser Systeme stark beeinträchtigen. Traditionelle Ansätze im Bereich des Multi-Agenten-Reinforcement-Learnings stoßen dabei an ihre Grenzen, weil sie weder ausreichend skalierbar noch robust gegenüber solchen Verlusten sind.
Um diesen Herausforderungen zu begegnen, wurde ein generelles Modell für kommunikationsbeschränkte Umgebungen entwickelt. Dieses Modell beschreibt einheitlich die Kommunikationsbedingungen in unterschiedlichen Szenarien und dient als Lernprior, um zwischen verlustbehafteten und verlustfreien Nachrichten zu unterscheiden. Durch die Trennung der Einflüsse beider Nachrichtentypen auf die verteilte Entscheidungsfindung wird die Analyse der Lernprozesse deutlich präziser.
Ein zentrales Element des neuen Ansatzes ist ein Dual-Mutual-Information-Estimator, der die Auswirkungen von lossy und lossless Nachrichten auf die globale Belohnung quantifiziert. Auf dieser Basis wurde ein umfassendes Framework für Multi-Agenten-Reinforcement-Learning unter Kommunikationsbeschränkungen geschaffen, das die Kommunikationsbelastung direkt in die Belohnungsfunktion einbezieht.
Die Wirksamkeit des Modells wurde an mehreren Benchmarks mit kommunikationsbeschränkten Bedingungen getestet. Die Ergebnisse zeigen, dass das neue Verfahren die Lernleistung signifikant steigert und dabei sowohl in stabilen als auch in dynamischen Umgebungen robuste Ergebnisse liefert.