Reverse Flow Matching: Rahmen für Online RL mit Diffusions- und Flusspolitiken
Ein neues Papier aus dem arXiv präsentiert Reverse Flow Matching (RFM), einen einheitlichen Rahmen, der die Ausbildung von Diffusions- und Flusspolitiken im Online-Reinforcement‑Learning (RL) systematisch vereinheitlich…