PyTorch 2.9: FlexAttention-Optimierung für Intel-GPUs
PyTorch 2.9 hat die FlexAttention-Implementierung vorgestellt, die speziell für Intel‑GPUs optimiert ist. Diese neue Variante unterstützt die beliebtesten Attention‑Varianten wie Grouped Query Attention (GQA), Multi‑Query Attention (MQA), PagedAttention und Sliding‑Window‑Mechanismen, die in modernen LLM‑Frameworks eingesetzt werden, um Genauigkeit und Effizienz zu balancieren.