Compiler erzeugen leistungsstarke Nanokernels für ML-Matrixmultiplikationen
Im rasch wachsenden Feld der künstlichen Intelligenz verschiebt sich die Kluft zwischen hochrangigen Domain-Operationen und effizienter Hardwareausnutzung weiter. Um nahezu Spitzenleistung zu erreichen, benötigen Anwender immer noch tiefgreifendes Fachwissen: entweder werden spezialisierte Kernels von Hand geschrieben oder auf komplexe Bibliotheken zurückgegriffen. Beide Ansätze erhöhen die Komplexität und erschweren die Skalierbarkeit für die Mehrheit der ML-Praktiker.