Entropie-getriebene Exploration verbessert Zero-Shot RL für Roboter
Zero-Shot‑Reinforcement‑Learning‑Algorithmen zielen darauf ab, aus einem belohnungsfreien Datensatz eine Familie von Policies zu lernen, die anschließend für beliebige Belohnungsfunktionen direkt im Einsatz optimal sind…