Parallel Decoder Transformer: Parallele Decodierung ohne Modellanpassung
Autoregressive Decodierung in großen Sprachmodellen ist von Natur aus sequentiell, was die Latenz linear mit der Ausgabelänge wachsen lässt. Dieses Engpassproblem behindert die schnelle Generierung längerer Texte und er…