Hybrid Differential Reward: Multi-Agent-Lernen für kooperatives Fahren
Ein neues Forschungsdokument aus dem arXiv präsentiert die Hybrid Differential Reward (HDR)-Methode, die das Multi-Agenten-Lernen in kooperativen Fahraufgaben revolutioniert. Durch die Kombination von Temporal Difference Rewards (TRD) und Action Gradient Rewards (ARG) adressiert HDR die Schwäche traditioneller, zustandsbasierter Belohnungsfunktionen, die bei hochfrequenten, kontinuierlichen Steuerungen zu nahezu verschwindenden Belohnungsunterschieden führen.