Reinforcement Learning optimiert Token‑Entmaskierung in Diffusions‑Sprachmodellen
Diffusions‑Sprachmodelle (dLLMs) haben in den letzten Monaten die Leistung ihrer autoregressiven Gegenstücke auf vielen Aufgaben erreicht und gleichzeitig das Potenzial, bei der Inferenz effizienter zu sein. Besonders v…