HINT: Hierarchische Distillation beschleunigt Multi-Agenten-Verstärkungslernen Die Wissensdistillation (KD) gilt als vielversprechende Methode, um Multi-Agenten-Verstärkungslernen (MARL) zu beschleunigen, indem ein zentraler Lehrer dezentralen Agenten Wissen vermittelt. In der Praxis stoßen jedoch drei zentrale Hindernisse an: die Erzeugung leistungsfähiger Lehrstrategien in komplexen Umgebungen, die Notwendigkeit, in Zuständen außerhalb des Trainingsbereichs (OOD) zu agieren, und die Diskrepanz zwischen

arXiv – cs.LG Original
Anzeige