Skalierbares Populationstraining verbessert Zero-Shot-Koordination
Zero‑Shot‑Koordination (ZSC) ist ein zentrales Thema in der aktuellen Forschung zu Reinforcement Learning. Dabei sollen Agenten ohne Feinabstimmung mit völlig neuen Mitspielern zusammenarbeiten können – ein entscheidender Schritt zur Generalisierung von KI-Systemen.
Population‑basierte Trainingsmethoden haben bereits gezeigt, dass sie die Zero‑Shot‑Koordination fördern. Allerdings sind die bisherigen Ansätze meist auf kleine Populationen beschränkt, weil sie sich vor allem auf die Diversität innerhalb dieser kleinen Gruppen konzentrieren und dabei das Potenzial einer größeren Population vernachlässigen.
Um dieses Problem zu lösen, stellt der neue Ansatz Scalable Population Training (ScaPT) ein effizientes Trainingsframework vor. Es kombiniert einen Meta‑Agenten, der Parameter gezielt zwischen Agenten teilt, mit einem Mutual‑Information‑Regularizer, der die Vielfalt der Population garantiert. Durch diese Kombination kann die Population deutlich skaliert werden, ohne die Trainingskosten unverhältnismäßig zu erhöhen.
In experimentellen Tests auf dem kooperativen Kartenspiel Hanabi hat ScaPT die Leistung bestehender Methoden übertroffen. Die Ergebnisse zeigen, dass die Skalierung der Population tatsächlich zu einer besseren Zero‑Shot‑Koordination führt und damit einen wichtigen Fortschritt für die Entwicklung generalisierbarer KI‑Agenten darstellt.