IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Kommunikation im latenten Raum durch K‑V‑Cache‑Ausrichtung
arXiv – cs.LG
•
ZeroQAT: Quantisierung ohne Backpropagation – effizient und präzise
arXiv – cs.LG
•
ZeroRouter: Kosten‑effiziente, Zero‑Shot-LLM-Routing-Lösung ohne Modell‑Lock‑In
arXiv – cs.AI
•
DRAGON: LLM-basierte Agenten lösen große kombinatorische Optimierungsprobleme
arXiv – cs.AI
•
Token‑Wahrscheinlichkeiten enthüllen Nichtdeterminismus von LLMs
arXiv – cs.LG
•
GLOSS: Neue Methode eliminiert toxische Subräume in Sprachmodellen