CoRe: Kontextrobuste Remasking-Technik verbessert Diffusion-Sprachmodelle
Die Standard-Decodierung in Masked Diffusion Models (MDMs) leidet unter einer zu starren Kontextbehandlung: Tokens werden auf Basis von kurzzeitiger, hoher Zuversicht beibehalten, obwohl frühe Vorhersagen oft noch nicht den vollen Kontext berücksichtigen. Dadurch entstehen Kaskadeneffekte, bei denen anfängliche Inkonsistenzen die nachfolgende Generierung irreführend beeinflussen.