Forschung
ReFORM: Flow-basierte Offline RL ohne OOD-Fehler – neue Rekordleistung
ReFORM ist ein neu entwickeltes Verfahren für Offline-Reinforcement-Learning, das die häufigsten Stolpersteine in diesem Bereich elegant lö…
arXiv – cs.LG