GB‑DQN: Gradient Boosting für stabile Deep Q‑Netzwerke in dynamischen Umgebungen
Ein neues Verfahren namens GB‑DQN (Gradient‑Boosted Deep Q‑Network) wurde auf arXiv veröffentlicht und verspricht, die Leistung von Deep‑Reinforcement‑Learning‑Algorithmen in sich ständig verändernden Umgebungen deutlich zu verbessern.
Traditionelle Deep‑Q‑Netzwerke verlieren schnell an Genauigkeit, wenn sich die Dynamik oder die Belohnungsstruktur eines Problems ändert – ein Phänomen, das als „catastrophisches Vergessen“ bekannt ist. GB‑DQN begegnet diesem Problem, indem es nicht einfach ein einzelnes Netzwerk neu trainiert, sondern ein additiv aufgebautes Ensemble von Lernenden erstellt. Jeder neue Lernende wird gezielt darauf trainiert, den Bellman‑Residual des aktuellen Ensembles zu approximieren, wodurch die Drift schrittweise korrigiert wird.
Die Autoren liefern theoretische Beweise dafür, dass jeder Boosting‑Schritt den empirischen Bellman‑Residual reduziert und dass das Ensemble unter üblichen Annahmen gegen die optimale Wertfunktion nach einer Drift konvergiert. In einer Reihe von Kontrollaufgaben, bei denen die Dynamik gezielt verändert wurde, zeigte GB‑DQN eine schnellere Erholung, höhere Stabilität und größere Robustheit als herkömmliche DQN‑Methoden sowie andere gängige Ansätze für nicht‑stationäre Szenarien.
Diese Ergebnisse deuten darauf hin, dass Gradient‑Boosting ein vielversprechender Ansatz ist, um Deep‑Reinforcement‑Learning in realen Anwendungen, die häufige Änderungen der Umweltbedingungen erfordern, zuverlässiger zu machen.