Offline RL: Skalierbare Modellbasierte Lernmethode mit Aktionsblöcken
Ein neues Verfahren namens Model-Based RL with Action Chunks (MAC) zeigt, dass modellbasiertes Reinforcement Learning auch bei sehr großen, komplexen Offline‑Datensätzen bis zu 100 M Transaktionen effizient funktioniert. Durch die Verwendung von „Aktionsblöcken“ – Sequenzen von Aktionen statt einzelner Schritte – reduziert MAC die kumulativen Fehler, die bei langen Rollouts entstehen, und verbessert die Vorhersagegenauigkeit des dynamischen Modells.