Online-Anpassung von RL mit Echo State Networks bei nicht-stationären Dynamiken
Reinforcement‑Learning‑Agenten, die in simulierten Umgebungen trainiert werden, zeigen häufig erhebliche Leistungsabfälle, sobald sie in der realen Welt eingesetzt werden. Der Grund liegt in nicht‑stationären Dynamiken, die in Simulationen nicht vollständig erfasst werden. Traditionelle Ansätze wie Domain Randomization oder Meta‑RL erfordern dagegen umfangreiches Pre‑Training, privilegierte Informationen oder hohe Rechenkosten, was ihre Nutzung in Echtzeit‑ oder Edge‑Systemen einschränkt.