SPIN: Beschleunigt Offline RL in großen diskreten Aktionsräumen
In der Welt des Reinforcement Learning stellen diskrete kombinatorische Aktionsräume ein enormes Problem dar: die Suche nach einer gültigen Kombination aus mehreren Teilaktionen erfordert das Durchsuchen einer exponenti…