Altruistische Manöverplanung für autonome Fahrzeuge mit Multi-Agenten-A2C
Mit der zunehmenden Verbreitung autonomer Fahrzeuge entsteht ein Mischverkehr, in dem selbstfahrende und von Menschen gesteuerte Autos gemeinsam die Straßen nutzen. Damit diese Systeme sozial verträgliche Entscheidungen treffen, müssen autonome Fahrzeuge nicht nur ihre eigenen Ziele verfolgen, sondern auch die Nutzen anderer Verkehrsteilnehmer berücksichtigen.
In dieser Studie wird ein dezentrales Belohnungssystem entwickelt, das altruistisches Verhalten bei den Fahrzeugen fördert. Anstatt auf vorgefertigte Modelle menschlicher Fahrweise zurückzugreifen, lernen die Agenten das Entscheidungsverhalten der Menschen ausschließlich aus Erfahrung. Dadurch entsteht ein end‑to‑end Ansatz, der die Unsicherheit über die Kooperationsbereitschaft menschlicher Fahrer überwindet.
Zur Umsetzung wird eine Multi‑Agenten-Variante des synchronen Advantage Actor‑Critic (A2C) Algorithmus eingesetzt. Durch die koordinierte Interaktion der Agenten können sie nicht nur ihre eigenen Manöver optimieren, sondern auch das Verhalten von Menschen auf der Straße positiv beeinflussen. Das Ergebnis ist ein verbessertes Verkehrsfluss und eine höhere Sicherheit für alle Beteiligten.