Neuer, speicher‑effizienter Self‑Play-Algorithmus für modellfreies RL
In der schnell wachsenden Forschung zu Multi‑Agenten‑Reinforcement‑Learning (MARL) gibt es seit langem Probleme mit Speicherbedarf, hoher Stichprobenkomplexität und langen Lernzeiten. Ein neues Verfahren, das „Memory‑Ef…