SPARK: Schrittweises, Referenzfreies RL mit Prozessbelohnungsmodellen
Das neue Framework SPARK eröffnet einen wegweisenden Ansatz für Reinforcement‑Learning ohne die Notwendigkeit von Schritt‑level‑Annotations oder Referenzdaten. Durch die Kombination von generativen Modellen, selbstkonsi…