PPO bleibt robust: Sequenzmodelle bekämpfen Sensorfehler in RL-Systemen
Reinforcement‑Learning‑Systeme müssen in der Praxis mit Veränderungen in ihren Beobachtungsdaten umgehen können. Die meisten gängigen Policy‑Architekturen gehen jedoch von vollständig beobachteten, fehlerfreien Zustände…