QMIX übertrifft IPPO bei kollaborativen Lagerrobotik-Algorithmen
In einer aktuellen Studie wurden die Multi-Agenten‑Reinforcement‑Learning‑Algorithmen QMIX und IPPO auf ihre Leistungsfähigkeit in der kollaborativen Lagerrobotik untersucht. Die Tests wurden sowohl im realistischen Robotic Warehouse (RWARE) als auch in einer maßgeschneiderten Unity‑3D‑Simulation durchgeführt.
Die Ergebnisse zeigen deutlich, dass QMIX mit seiner Wert‑Decomposition die Aufgabe wesentlich besser löst als IPPO. Während QMIX einen durchschnittlichen Return von 3,25 erreichte, lag der von IPPO bei lediglich 0,38. Dieser Unterschied verdeutlicht die Stärke von QMIX bei der Koordination mehrerer Roboter.
Ein entscheidender Faktor für den Erfolg von QMIX ist die umfangreiche Hyperparameter‑Optimierung, insbesondere die lange Epsilon‑Annealing‑Phase von über 5 Millionen Schritten, die nötig ist, um bei sparsamen Belohnungen die Lernfähigkeit zu sichern. Trotz dieses Aufwands konnte QMIX in der Unity ML‑Agents‑Umgebung nach nur 1 Millionen Trainingsschritten konsistente Paketlieferungen realisieren.
Die Autoren betonen, dass die Technologie besonders vielversprechend für kleine bis mittlere Einsatzszenarien mit 2 bis 4 Robotern ist. Größere Skalierungen bringen jedoch noch erhebliche Herausforderungen mit sich, die in zukünftigen Arbeiten adressiert werden müssen.
Alle Code‑Beispiele und detaillierten Analysen sind unter https://pallman14.github.io/MARL-QMIX-Warehouse-Robots/ verfügbar.