Neue Flow‑Matching‑Methode für Offline‑RL mit diskreten Aktionen
Forscher haben Flow Matching auf diskrete Aktionsräume ausgeweitet, um Offline‑Reinforcement‑Learning in breiteren Szenarien zu ermöglichen. Durch die Kombination von Diffusionsmodellen und Flow Matching entsteht ein leistungsstarkes generatives Verfahren, das bisher vor allem in kontinuierlichen Aktionsräumen erfolgreich war.