Lookahead Unmasking verbessert Genauigkeit bei Diffusions-Sprachmodellen
Maskierte Diffusionsmodelle erzeugen Text, indem sie Token nacheinander aufdecken. Dabei ist die Reihenfolge, in der die Token freigelegt werden, entscheidend für die Qualität der Ausgabe. Traditionelle Heuristiken, wie die auf Konfidenz basierende Stichprobe, optimieren lediglich lokal, nutzen zusätzliche Rechenzeit nicht aus und lassen Fehler frühzeitig in der Decodierung weiterlaufen.