Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “TED”
Forschung

Multi‑GPU‑LLMs: Aktivierungsbasierte Interpretierbarkeit & Steuerung <p>Ein neues Verfahren ermöglicht es, große Sprachmodelle, die mehrere GPU‑Karten benötigen, auf Aktivierungs‑Ebene zu interpretieren und zu steuern. Durch gezielte Designentscheidungen wird der Speicherbedarf für Aktivierungen um bis zu siebenmal reduziert und die Durchsatzrate um bis zu 41‑fach erhöht, ohne dass zusätzliche Hardware erforderlich ist.</p> <p>Die Methode wurde an den Modellen LLaMA‑3.1 (8 B, 70 B) und Qwen‑3 (4 B, 14 B

arXiv – cs.LG