ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung
ReFORM ist ein neu entwickeltes Verfahren für Offline-Reinforcement-Learning, das die häufigsten Stolpersteine in diesem Bereich elegant löst. Im Gegensatz zu bisherigen Ansätzen, die versuchen, die Policy durch statistische Distanzbegrenzungen an die Trainingsdaten zu binden, nutzt ReFORM Flows, um die Unterstützung der Aktionen direkt zu konstruieren.