IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
TurboBoA: Schnellere, genaue Attention-Quantisierung ohne Backpropagation
arXiv – cs.LG
•
Kommunikation im latenten Raum durch K‑V‑Cache‑Ausrichtung
arXiv – cs.LG
•
ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise
arXiv – cs.LG
•
Hybrid-Parallelität für große Sprachmodelle: Systematischer Leitfaden und Vergleich
arXiv – cs.LG
•
LLM-gestützte Regeln verbessern partizipatives Budgetieren
arXiv – cs.AI
•
Neuer Ansatz: Autoregressive DPO optimiert Sprachmodelle nach menschlichen Präferenzen