AXELRAM: Quantisierung ohne Dequantisierung – Attention-Score-Berechnung
AXELRAM bringt einen echten Durchbruch in der Berechnung von Attention‑Scores: Statt die KV‑Cache‑Indices zu dequantisieren, werden die Scores direkt aus quantisierten Daten berechnet. Das spart Rechenzeit, Speicher und…