MACTAS: Selbstaufmerksamkeit verbessert Agentenkommunikation im MARL
In der Welt des Multi-Agenten‑Reinforcement Learning (MARL) ist Kommunikation das Herzstück, wenn mehrere Agenten komplexe Aufgaben gemeinsam bewältigen sollen. Traditionelle Kommunikationsprotokolle sind oft kompliziert und nicht differenzierbar, was die Lernfähigkeit der Agenten einschränkt. Mit dem neuen MACTAS‑Modul – einer selbstaufmerksamkeitsbasierten Kommunikationskomponente – wird das Spiel verändert.
MACTAS ist vollständig differenzierbar, sodass Agenten ihre Nachrichten direkt aus dem Belohnungsfeedback lernen können. Das bedeutet, dass die Agenten selbst entscheiden, welche Informationen sie austauschen, und dabei ihre Handlungen optimieren. Das Modul lässt sich nahtlos in jede Methode der Aktionswert‑Funktionsdekomposition einbinden und erweitert diese um eine effiziente Kommunikationsschicht.
Ein entscheidender Vorteil von MACTAS ist die feste Anzahl trainierbarer Parameter, die unabhängig von der Agentenanzahl bleibt. In umfangreichen Tests auf dem SMAC‑Benchmark hat das Modul nicht nur die Komplexität reduziert, sondern auch den aktuellen Stand der Technik auf mehreren Karten übertroffen. MACTAS zeigt damit, dass selbstaufmerksame Kommunikation die nächste Generation von Multi-Agenten‑Systemen vorantreiben kann.