TorchTitan ermöglicht effizientes MoE-Pretraining auf 1.000 AMD‑GPUs
Die neueste Entwicklung im Bereich der großen Sprachmodelle zeigt, dass das Pre‑Training von Mixture‑of‑Experts (MoE) Modellen wie DeepSeek‑V3 und Llama 4‑Scout nun mit einer bemerkenswerten Effizienz auf einer riesigen…