TPLA: Tensor-Parallel Latent Attention beschleunigt Nachlauf großer Modelle
Die neue Methode Tensor-Parallel Latent Attention (TPLA) kombiniert die Speicher‑Effizienz der Multi‑Head Latent Attention (MLA) mit der Rechenleistung von Tensor‑Parallelism. MLA reduziert die Größe der Key‑Value‑Cache…