Diffusion‑LLMs: Syntaktisch korrekte Ausgabe dank kontextfreier Grammatik

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer neuen Studie wird gezeigt, wie Diffusion‑basierte Sprachmodelle mithilfe von kontextfreien Grammatiken streng syntaktisch korrekte Texte erzeugen können. Die Autoren stellen die erste Methode vor, die kontextfreie Grammatiken in den Decodierungsprozess von Diffusion‑LLMs integriert.

Der Ansatz reduziert das Problem der konstruierten Decodierung zunächst auf das allgemeinere Additive‑Infilling. Dabei wird geprüft, ob ein teilweise generierter Text zu einem gültigen Wort der Zielgrammatik ergänzt werden kann. Anschließend wird das Problem auf die Frage reduziert, ob die Schnittmenge der Zielgrammatik mit einer regulären Sprache leer ist. Für kontextfreie Sprachen wird ein effizientes Verfahren entwickelt, das diese Schnittmenge prüft.

Experimentelle Tests in praktischen Anwendungsfällen – etwa beim Ausfüllen von C++‑Code‑Fragmenten und bei der Extraktion von strukturierten Daten im JSON‑Format – zeigen, dass die Methode nahezu perfekte syntaktische Korrektheit erreicht. Gleichzeitig bleibt die Qualität der generierten Inhalte erhalten, sodass die Modelle sowohl formal korrekt als auch inhaltlich zuverlässig arbeiten.

Ähnliche Artikel