Parallel Decoder Transformer: Parallele Decodierung ohne Modellanpassung
Autoregressive Decodierung in großen Sprachmodellen ist von Natur aus sequentiell, was die Latenz linear mit der Ausgabelänge wachsen lässt. Dieses Engpassproblem behindert die schnelle Generierung längerer Texte und erschwert die Nutzung von LLMs in Echtzeit-Anwendungen.
Aktuelle Ansätze wie „Skeleton‑of‑Thought“ versuchen, die Ausgabe parallel zu erzeugen, indem sie externe Orchestrierung einsetzen. Dabei fehlt jedoch eine effektive Kommunikation zwischen den parallelen Strömen, was zu einem „Coherence Drift“ führt – die erzeugten Textteile verlieren ihre inhaltliche Kohärenz.
Der Parallel Decoder Transformer (PDT) löst dieses Problem, indem er Koordinationsmechanismen direkt in den Inferenzprozess eines bereits vortrainierten Modells einbettet. Statt das gesamte Modell neu zu trainieren, werden leichte Speculative Note Conditioning (SNC) Adapter eingefügt, die parallele Decodierungsströme über einen gemeinsamen, dynamischen latenten Raum synchronisieren. Die Koordination wird als spekulatives Konsensproblem formuliert: Schwesterströme senden semantische „Notizen“ an einen globalen Bus, der von einem lernenden Verifikationskopf gesteuert wird.
In einer 50.000‑Schritt‑Curriculum‑Validierung mit einem 20‑Billionen‑Parameter‑Backbone zeigte PDT eine effektive Selbstkorrektur. Die Genauigkeit bei der Abdeckungsvorhersage erreichte 77,8 % und das Modell konnte die semantische Struktur einer sequentiellen Ausgabe ohne Änderungen an den Kerngewichten rekonstruieren. Damit bietet PDT eine skalierbare und effiziente Alternative zum vollständigen Fein‑Tuning für strukturierte, parallele Textgenerierung.