ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung
ReFORM ist ein neu entwickeltes Verfahren für Offline-Reinforcement-Learning, das die häufigsten Stolpersteine in diesem Bereich elegant löst. Im Gegensatz zu bisherigen Ansätzen, die versuchen, die Policy durch statist…