TorchInductor erweitert: CuteDSL als neuer Backend für leistungsfähige GEMMs
Die PyTorch‑Bibliothek TorchInductor hat sich als leistungsstarke Plattform für die Optimierung von Matrixmultiplikationen etabliert. Bisher unterstützt sie drei Autotuning‑Backends – Triton, CUTLASS (C++) und cuBLAS –…