Forschung
AXELRAM: Quantisierung ohne Dequantisierung – Attention-Score-Berechnung
AXELRAM bringt einen echten Durchbruch in der Berechnung von Attention‑Scores: Statt die KV‑Cache‑Indices zu dequantisieren, werden die Sco…
arXiv – cs.LG