Mugi: Wertorientierte Parallelisierung steigert Effizienz großer Sprachmodelle
Wertorientierte Parallelisierung (VLP) wurde entwickelt, um die Effizienz von großen, niedrigen Präzisions-Matrixmultiplikationen (GEMM) zwischen symmetrischen Aktivierungen und Gewichten zu erhöhen. In transformerbasie…