ARMD: Modell kombiniert Effizienz von ARMs und Parallelität von Diffusionen
In der Welt der Sprachmodelle haben Masked Diffusion Models (MDMs) großes Interesse geweckt, doch sie hinken noch hinter den klassischen autoregressiven Modellen (ARMs) hinterher und benötigen mehr Trainingsschritte. Da…