TPLA: Tensor-Parallel Latent Attention beschleunigt Nachlauf großer Modelle
Die neue Methode Tensor-Parallel Latent Attention (TPLA) kombiniert die Speicher‑Effizienz der Multi‑Head Latent Attention (MLA) mit der Rechenleistung von Tensor‑Parallelism. MLA reduziert die Größe der Key‑Value‑Cache‑Daten, indem sie diese in einen kompakten latenten Vektor zusammenfasst. In herkömmlichem Tensor‑Parallel‑Setup muss jedes Gerät jedoch den gesamten Cache laden, was den Speicher‑Vorteil von MLA zunichte macht.