Forschung
Parallel Decoder Transformer: Parallele Decodierung ohne Modellanpassung
Autoregressive Decodierung in großen Sprachmodellen ist von Natur aus sequentiell, was die Latenz linear mit der Ausgabelänge wachsen lässt…
arXiv – cs.AI