Reverse Flow Matching: Rahmen für Online RL mit Diffusions- und Flusspolitiken
Ein neues Papier aus dem arXiv präsentiert Reverse Flow Matching (RFM), einen einheitlichen Rahmen, der die Ausbildung von Diffusions- und Flusspolitiken im Online-Reinforcement‑Learning (RL) systematisch vereinheitlicht. RFM löst ein zentrales Problem, das seit langem die Effizienz von RL‑Modellen limitiert: die fehlende direkte Stichprobe aus der Zielverteilung.
In Online‑RL ist die Zielverteilung ein unnormalisiertes Boltzmann‑Verteilungsmodell, das durch die Q‑Funktion definiert wird. Da keine direkten Samples aus dieser Verteilung verfügbar sind, mussten bisher zwei scheinbar unabhängige Ansätze entwickelt werden: die „Noise‑Expectation“-Familie, die einen gewichteten Mittelwert von Rauschen als Trainingsziel nutzt, und die „Gradient‑Expectation“-Familie, die gewichtete Gradienten der Q‑Funktion einsetzt. Die Beziehung zwischen diesen Methoden blieb bislang unklar.
RFM greift auf eine rückwärtsgerichtete Inferenzperspektive zurück und formuliert das Trainingsziel als Problem der Posterior‑Mittelwertschätzung unter Verwendung eines Zwischenrauschensamples. Durch die Einführung von Langevin‑Stein‑Operatoren entstehen Null‑Mittelwert‑Kontrollvarianten, die die Varianz von Importance‑Sampling drastisch reduzieren. Damit werden die beiden bisherigen Ansätze als spezielle Fälle einer weitreichenderen Klasse von Schätzern erkannt.
Diese einheitliche Sichtweise führt zu zwei wesentlichen Fortschritten: Erstens erweitert sie die Fähigkeit, Boltzmann‑Verteilungen mit Diffusionsmodellen zu adressieren, und zweitens liefert sie eine generische Schätzklasse, die die Trainingseffizienz von Diffusions‑ und Flusspolitiken erheblich steigert. RFM bietet damit ein kraftvolles Werkzeug für die Entwicklung von leistungsstarken, ausdrucksstarken Online‑RL‑Modellen.