Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
Anzeige
Ähnliche Artikel
arXiv – cs.LG
•
Federated Learning für LLM-Router: Mehr Effizienz ohne zentrale Daten
arXiv – cs.LG
•
LOCUS: Kompakte Embeddings für effiziente Modellwahl und Vergleich
arXiv – cs.LG
•
LLM‑Gewichte komprimieren: Low‑Rank‑Tensor‑Approximation mit Cosine Lanczos
Towards Data Science
•
Fehler in der Attention-Matrix: Geschichte und Lösungen
arXiv – cs.LG
•
Effiziente Fakten‑Speicher‑MLPs für Transformer: Neuer Ansatz
PyTorch – Blog
•
Hybrid Models as First-Class Citizens in vLLM