LOOKAT: Lookup-Optimierte Key‑Attention für Speicher‑effiziente Transformer
Die neueste Veröffentlichung von Forschern auf arXiv zeigt, wie man die Schlüssel‑ und Wert‑Cache‑Speicherung von großen Sprachmodellen drastisch reduzieren kann, ohne die Leistung zu beeinträchtigen. Traditionelle Quan…