FlexAttention nutzt FlashAttention‑4 – flexibler Hopper & Blackwell
FlexAttention hat jetzt einen FlashAttention‑4‑Backend auf den neuesten NVIDIA GPUs Hopper und Blackwell. Das bedeutet deutlich schnellere und gleichzeitig anpassbare Attention‑Berechnungen.
In PyTorch wurde die automatische Generierung von CuTeDSL‑Funktionen für Score‑ und Masken‑Modifikationen eingeführt. Damit können Entwickler ohne manuellen Aufwand eigene Attention‑Logiken implementieren.
Zusätzlich wird FlashAttention‑4 bei Bedarf JIT‑instanziert, sodass die Bibliothek bei benutzerdefinierten Operationen sofort einsatzbereit ist. Das reduziert Latenz und Speicherbedarf.
Die Kombination aus FlexAttention und FlashAttention‑4 bietet Forschern und Praktikern eine leistungsstarke, aber leicht zu integrierende Lösung für große Transformer‑Modelle.