SPIN: Beschleunigt Offline RL in großen diskreten Aktionsräumen
In der Welt des Reinforcement Learning stellen diskrete kombinatorische Aktionsräume ein enormes Problem dar: die Suche nach einer gültigen Kombination aus mehreren Teilaktionen erfordert das Durchsuchen einer exponentiell großen Menge möglicher Aktionen. Traditionelle Ansätze vereinfachen die Politikentwicklung, indem sie die Unabhängigkeit der Teilaktionen annehmen – ein Modell, das häufig zu inkohärenten oder sogar ungültigen Aktionen führt. Andere Methoden versuchen, die Struktur der Aktionen und die Steuerung gleichzeitig zu erlernen, was jedoch langsam und instabil bleibt.