Forschung
Ansatz: Delightful Distributed Policy Gradient verbessert RL bei fehlerhaften Daten
In verteilten Verstärkungslern‑Systemen entstehen häufig Daten von veralteten, fehlerhaften oder nicht übereinstimmenden Akteuren. Diese Da…
arXiv – cs.LG