AC3: RL-Framework verbessert Robotik-Manipulation bei sparsamen Belohnungen
In der Robotik stellt die Bewältigung von Aufgaben mit langen Zeithorizonten und seltenen Belohnungen ein großes Problem dar. Das neue Framework AC3 (Actor‑Critic for Continuous Chunks) löst dieses Problem, indem es kontinuierliche Aktionssequenzen in hoher Dimension lernt und dabei stabile, daten‑effiziente Lernmechanismen einsetzt.
Der Actor wird mit einer asymmetrischen Update‑Regel trainiert, die ausschließlich aus erfolgreichen Trajektorien lernt. Dadurch wird die Policy‑Verbesserung zuverlässig sichergestellt. Der Critic dagegen nutzt intra‑Chunk‑n‑Step‑Returns und ein selbst‑überwachendes Modul, das intrinsische Belohnungen an Ankerpunkten der Aktionschunks liefert. Diese Kombination ermöglicht ein effektives Wertlernen, selbst wenn die extrinsische Belohnung sehr spärlich ist.
AC3 wurde auf 25 anspruchsvollen Aufgaben aus den BiGym‑ und RLBench‑Benchmarks getestet. Mit nur wenigen Demonstrationen und einer einfachen Modellarchitektur erzielte das System überlegene Erfolgsraten bei den meisten Aufgaben. Die Ergebnisse zeigen, dass AC3 ein vielversprechender Ansatz für langfristige, sparsamer belohnte Robotik‑Manipulation ist.