Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Entscheidung”
Forschung

Multi‑GPU‑LLMs: Aktivierungsbasierte Interpretierbarkeit & Steuerung <p>Ein neues Verfahren ermöglicht es, große Sprachmodelle, die mehrere GPU‑Karten benötigen, auf Aktivierungs‑Ebene zu interpretieren und zu steuern. Durch gezielte Designentscheidungen wird der Speicherbedarf für Aktivierungen um bis zu siebenmal reduziert und die Durchsatzrate um bis zu 41‑fach erhöht, ohne dass zusätzliche Hardware erforderlich ist.</p> <p>Die Methode wurde an den Modellen LLaMA‑3.1 (8 B, 70 B) und Qwen‑3 (4 B, 14 B

arXiv – cs.LG
Forschung

LLMs sollten Unsicherheit explizit kommunizieren – neue Forschungsergebnisse In einer aktuellen Studie auf arXiv wird gezeigt, dass große Sprachmodelle (LLMs) in Situationen, in denen Unsicherheit Entscheidungen steuert, deutlich besser funktionieren, wenn sie Unsicherheit aktiv ausdrücken. Statt Unsicherheit erst nach der Textgenerierung zu schätzen, schlagen die Autoren zwei neue Schnittstellen vor, die Unsicherheit während des Prozesses signalisieren. Die erste Schnittstelle ist global: Das Modell gi

arXiv – cs.LG