CoRe: Kontextrobuste Remasking-Technik verbessert Diffusion-Sprachmodelle
Die Standard-Decodierung in Masked Diffusion Models (MDMs) leidet unter einer zu starren Kontextbehandlung: Tokens werden auf Basis von kurzzeitiger, hoher Zuversicht beibehalten, obwohl frühe Vorhersagen oft noch nicht den vollen Kontext berücksichtigen. Dadurch entstehen Kaskadeneffekte, bei denen anfängliche Inkonsistenzen die nachfolgende Generierung irreführend beeinflussen.
Um dieses Problem zu lösen, stellt das neue Verfahren Context‑Robust Remasking (CoRe) einen trainingsfreien Ansatz für die Inferenzzeit vor. Anstatt sich auf statische Token‑Wahrscheinlichkeiten zu verlassen, identifiziert CoRe tokens, die empfindlich auf gezielte Kontext‑Störungen reagieren. Durch die Formulierung einer robusten Optimierungsaufgabe über Kontextverschiebungen und deren effiziente Approximation werden instabile Tokens gezielt für eine Revision priorisiert.
In Tests mit dem LLaDA‑8B‑Base-Modell erzielt CoRe konsistente Verbesserungen bei Rechenaufgaben und Code‑Benchmarks. Die Methode übertrifft rechnerisch vergleichbare Baselines und steigert die MBPP‑Leistung um bis zu 9,2 Prozentpunkte, was die Effektivität einer kontextsensitiven Revision deutlich unterstreicht.