Programmatic Policies übertreffen neuronale in Evolutionären RL-Tests
In der Forschung zu evolutionärem Reinforcement Learning (ERL) werden Agenten häufig mit kleinen künstlichen neuronalen Netzwerken (NERL) programmiert. Diese Netzwerke besitzen jedoch keine klare modulare Struktur, was die Interpretation ihres Verhaltens erschwert. Ein neues Papier untersucht, ob programmgesteuerte Politiken (PERL), die als weiche, differenzierbare Entscheidungslisten (SDDL) umgesetzt werden, die Leistung von NERL erreichen oder sogar übertreffen können.