Triton-Optimierter BF16 Grouped GEMM Kernel beschleunigt MoE-Modelle
Ein neues, optimiertes Triton‑Kernel für BF16‑Grouped GEMM wurde vorgestellt, das sowohl das Training als auch die Inferenz von Mixture‑of‑Experts‑Modellen – darunter die aktuelle DeepSeekv3‑Architektur – deutlich beschleunigt.