Online‑Aktionsstapelung steigert Reinforcement‑Learning‑Leistung im Flugverkehr

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Forscher haben eine neue Technik namens Online‑Aktionsstapelung entwickelt, die Reinforcement‑Learning‑Agenten ermöglicht, realistische Flugverkehrskontrollbefehle zu erzeugen, obwohl sie nur mit einer sehr kleinen diskreten Aktionsmenge trainiert werden. Dabei werden die Agenten zunächst mit einfachen, schrittweisen Kurs‑ oder Höhenanpassungen sowie einer Dämpfungspenalty trainiert, die die Häufigkeit der Befehle reduziert und kurze Befehlssätze erzeugt.

Im Einsatz werden diese kurzen Befehlssätze dann von der Online‑Aktionsstapelung zu komplexen, domänenspezifischen Clearance‑Anweisungen zusammengefasst. Auf Basis von Proximal Policy Optimisation (PPO) und der BluebirdDT‑Digital‑Twin‑Plattform wurden Agenten trainiert, Flugzeuge entlang lateraler Routen zu führen, Auf- und Abstieg zu Zielflughöhen zu steuern und Kollisionen zwischen zwei Flugzeugen unter Einhaltung einer Mindestentfernung zu vermeiden.

In Experimenten zur lateralen Navigation zeigte sich, dass die Aktionsstapelung die Anzahl der ausgegebenen Befehle im Vergleich zu einem gedämpften Baseline deutlich reduziert, gleichzeitig aber eine Leistung erreicht, die einer Policy mit 37‑dimensionalem Aktionsraum entspricht – obwohl nur fünf Aktionen verwendet werden. Diese Ergebnisse demonstrieren, dass Online‑Aktionsstapelung die Lücke zwischen klassischen Reinforcement‑Learning‑Formulierungen und den Anforderungen der realen Flugverkehrskontrolle schließt und einen einfachen Weg bietet, die Technik auf komplexere Kontrollaufgaben zu skalieren.

Ähnliche Artikel