Frühzeitiges Beenden der Diffusionsinferenz für dLLMs dank Trainingsgradienten

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Ein neu entwickeltes Verfahren namens EDIT (Early Diffusion Inference Termination) ermöglicht es, die iterative Denoising‑Phase von diffusion‑basierten großen Sprachmodellen (dLLMs) frühzeitig zu stoppen, sobald die Antwort stabil genug erscheint. Dadurch werden Rechenressourcen gespart, ohne die Qualität der generierten Texte zu beeinträchtigen.

EDIT nutzt die während des Supervised Fine‑Tuning (SFT) erfassten Optimierungs­dynamiken – speziell die AdamW‑aggregierten LoRA‑Updates – um ein sogenanntes „Reasoning Map“ zu erstellen. Dieses Map spiegelt die wichtigsten Parameterpfade wider, die das Modell für die Beantwortung von Fragen gelernt hat. Während der Inferenz wird die Übereinstimmung zwischen den aktuellen Token‑Aktivierungen und dieser Map kontinuierlich überwacht. Sobald die KL‑Divergenz zwischen aufeinanderfolgenden Denoising‑Schritten unter einen festgelegten Schwellenwert fällt, erkennt EDIT, dass die Antwort ausreichend stabil ist und stoppt die weitere Verarbeitung.

In umfangreichen Benchmark‑Tests konnte EDIT die Anzahl der benötigten Diffusionsschritte um 11,8 % bis zu 68,3 % reduzieren, während die Genauigkeit in den meisten Fällen gleich blieb oder sogar leicht steigerte. Der zusätzliche Speicherbedarf beträgt lediglich etwa 0,02 % – ungefähr 1,5 bis 2 MB für alle QKV‑Module über 32 Blöcke in einem 8 GB‑Modell. Diese Effizienzsteigerung bedeutet deutlich geringere Inferenzkosten und schnellere Antwortzeiten.

Durch die Nutzung von Trainingsgradienten als Metadaten eröffnet EDIT einen vielversprechenden neuen Forschungsweg, um die Laufzeit und die Betriebskosten von diffusion‑basierten Sprachmodellen weiter zu senken. Die Methode zeigt, dass wertvolle Informationen, die bisher bei der Modellausgabe vernachlässigt wurden, gezielt eingesetzt werden können, um die Leistung von KI-Systemen nachhaltig zu verbessern.

Ähnliche Artikel