EntRGi: Neue Methode verbessert Reward Guidance bei Diffusion‑Sprachmodellen
Ein neues Verfahren namens EntRGi (Entropy aware Reward Guidance) hat die Art und Weise, wie Belohnungsmodelle bei diskreten Diffusion‑Sprachmodellen eingesetzt werden, grundlegend verändert. Im Gegensatz zu bisherigen Ansätzen, die entweder diskrete Token durch kontinuierliche Relaxationen ersetzen oder den Straight‑Through‑Estimator nutzen, bietet EntRGi einen dynamischen Ansatz, der die Gradienten aus dem Belohnungsmodell anhand der Modell‑Vertrauensstufe reguliert.