Hierarchisches RL‑MPC: Adaptive Planung steigert Effizienz um 72 %
Ein neues Verfahren verbindet hierarchische Reinforcement‑Learning‑Aktionen mit Model Predictive Control (MPC) und schafft so eine elegante, eng gekoppelte Planungslösung. Durch die Nutzung von RL‑Aktionen zur Steuerung des MPPI‑Samplers und die adaptive Aggregation von MPPI‑Samples zur Wertschätzung wird ein dynamischer Prozess erzeugt, der gezielt dort mehr Exploration einsetzt, wo die Wertschätzung unsicher ist.
Das Ergebnis ist ein robustes Planungsframework, das komplexe Aufgaben zuverlässig löst und sich leicht an unterschiedliche Anwendungsbereiche anpassen lässt. In Testfällen wie Rennfahrten, einem modifizierten Acrobot und dem Lunar Lander mit Hindernissen konnte das System die Dateneffizienz und die Gesamtleistung deutlich steigern.
Die Experimente zeigen bis zu 72 % höhere Erfolgsraten im Vergleich zu bestehenden Ansätzen und eine Konvergenzgeschwindigkeit, die sich um das 2,1‑fache beschleunigt. Damit demonstriert die Methode, wie die Kombination von RL und MPC in einer hierarchischen Struktur zu einer signifikanten Leistungsverbesserung führen kann.