Online‑Aktionsstapelung steigert Reinforcement‑Learning‑Leistung im Flugverkehr
Forscher haben eine neue Technik namens Online‑Aktionsstapelung entwickelt, die Reinforcement‑Learning‑Agenten ermöglicht, realistische Flugverkehrskontrollbefehle zu erzeugen, obwohl sie nur mit einer sehr kleinen diskreten Aktionsmenge trainiert werden. Dabei werden die Agenten zunächst mit einfachen, schrittweisen Kurs‑ oder Höhenanpassungen sowie einer Dämpfungspenalty trainiert, die die Häufigkeit der Befehle reduziert und kurze Befehlssätze erzeugt.