Suche nach LLM inference

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Multi-Agent-LLM-Systeme, die auf Edge-Geräten laufen, stoßen häufig an die Grenzen des verfügbaren RAMs. Auf einem Apple M4 Pro mit einem C…

arXiv – cs.LG 06.03.2026 05:00

Forschung

Energieeffiziente LLM-Inference durch kontextabhängiges Modellwechseln

Große Sprachmodelle sind inzwischen unverzichtbar für zahlreiche KI-Anwendungen, doch ihr steigender Energieverbrauch wirft ernsthafte Nach…

arXiv – cs.LG 27.02.2026 05:00

Forschung

CHESS: Effiziente, kontextbewusste KV-Cache-Optimierung für LLMs

Ein neues arXiv-Papier (2602.20732v1) präsentiert CHESS, ein innovatives System zur Verwaltung des KV-Caches bei großen Sprachmodellen mit…

arXiv – cs.AI 25.02.2026 05:00

Forschung

MedCoG: LLMs im medizinischen Denken dank Meta‑Kognition effizienter

Large Language Models (LLMs) haben in der medizinischen Entscheidungsfindung großes Potenzial gezeigt, doch die Vorteile nehmen mit zunehme…

arXiv – cs.AI 10.02.2026 05:00

Forschung

<h1>Sketch-and-Walk: Sparsere Attention für schnellere LLM‑Inferenz</h1> <p>Die Selbstaufmerksamkeit ist der Hauptfaktor, der die Rechen- und Speicherkosten bei der Inferenz von großen Sprachmodellen (LLMs) mit langen Kontexten bestimmt. Sowohl die Vor‑ als auch die Decodierungsphase sind dadurch stark belastet.</p> <p>Um dieses Problem zu lösen, wurde Sketch&Walk Attention entwickelt – ein sparsames Aufmerksamkeitsverfahren, das ohne Training auskommt. Es nutzt Hadamard‑Sketching, um kostengünstige Schätz

arXiv – cs.LG 10.02.2026 05:00

Forschung

Energieeffizienz bei LLM-Inferezen: optimale Eingabe-/Ausgabe-Längen

Die Energie, die große Sprachmodelle (LLMs) bei der Inferenz verbrauchen, ist ein entscheidender Faktor für moderne KI-Anwendungen. Traditi…

arXiv – cs.AI 06.02.2026 05:00

Forschung

Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen…

arXiv – cs.LG 28.01.2026 05:00

Praxis

<h1>Tencent Hunyuan stellt HPC‑Ops vor – Hochleistungs-Operatorbibliothek für LLM</h1> <p>Tencent Hunyuan hat die Open‑Source-Bibliothek HPC‑Ops veröffentlicht, die speziell für die Inferenz von großen Sprachmodellen (LLM) entwickelt wurde. Die Bibliothek bietet eine produktionsreife Sammlung von Operatoren, die direkt auf den Hardware‑Architekturen von LLM‑Inference‑Geräten laufen.</p> <p>HPC‑Ops konzentriert sich auf effiziente CUDA‑Kernels für Kernoperatoren wie Attention, Grouped GEMM und Fused MoE. Dur

MarkTechPost 28.01.2026 06:23

Produkt

Beschleunigung von LLM-Inferenz mit AWQ und GPTQ auf Amazon SageMaker

Quantisierte Modelle lassen sich mit nur wenigen Codezeilen nahtlos auf Amazon SageMaker AI einsetzen. In diesem Beitrag erläutern wir, war…

AWS – Machine Learning Blog 09.01.2026 18:09

Produkt

LLM-Inference auf Amazon SageMaker AI mit BentoMLs LLM-Optimizer optimieren

Amazon SageMaker AI ermöglicht die schnelle Bereitstellung von großen Sprachmodellen, doch die optimale Konfiguration für Latenz, Durchsatz…

AWS – Machine Learning Blog 24.12.2025 17:17

Forschung

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

Dezentrale Inferenz von großen Sprachmodellen (LLM) verspricht transparente und zensurresistente KI‑Zugriffe, doch bisherige Verifikationsm…

arXiv – cs.AI 19.12.2025 05:00

Forschung

LLM-Modelle extrahieren Kontext aus Nutzereingaben – sicherere Antworten

In der Welt der großen Sprachmodelle (LLMs) sind Nutzeranfragen häufig mehrdeutig oder unvollständig. Subtile Hinweise aus den Absichten, d…

arXiv – cs.LG 16.12.2025 05:00

Forschung

Adaptive Soft Rolling KV Freeze: Entropie-gesteuerte Wiederherstellung für LLMs

Ein neues, trainingsfreies Verfahren zur effizienten Textgenerierung bei großen Sprachmodellen wurde vorgestellt. Die Methode, genannt Adap…

arXiv – cs.LG 15.12.2025 05:00

Forschung

Bench360: Vollständiges Benchmarking lokaler LLM‑Inferenz aus 360°

Die Ausführung großer Sprachmodelle (LLMs) auf eigenen Rechnern wird immer üblicher. Trotz der Verfügbarkeit kleiner Open‑Source‑Modelle un…

arXiv – cs.AI 24.11.2025 05:00

Praxis

vLLM, TensorRT-LLM, HF TGI & LMDeploy: Vergleich für produktiven LLM-Inferring

Die Bereitstellung von großen Sprachmodellen in der Produktion ist heute ein komplexes Systemproblem, das weit über das einfache Aufrufen v…

MarkTechPost 20.11.2025 07:21

Praxis

NVIDIA präsentiert TiDAR: Hybrid-Architektur für schnelle LLM-Inferenz

NVIDIA hat mit TiDAR einen neuen Ansatz vorgestellt, der die Geschwindigkeit von großen Sprachmodellen deutlich steigert, ohne dabei die Qu…

MarkTechPost 14.11.2025 05:01

Forschung

LLM-Inferezzug: Energieverbrauch von Sprachmodellen gemessen

Die rasante Verbreitung von Large Language Models (LLMs) hat einen enormen Energiebedarf ausgelöst – nicht nur beim Training, sondern vor a…

arXiv – cs.AI 11.11.2025 05:00

Forschung

Sicher und schnell: Duale Privatsphäre für LLM-Inferenz mit CMIF

Ein brandneues Framework namens CMIF verspricht, die Sicherheit und Effizienz bei der Inferenz großer Sprachmodelle zu revolutionieren. Dur…

arXiv – cs.AI 12.09.2025 05:00

Forschung

XQuant reduziert Speicherbedarf bei LLM-Infereenzen um bis zu 10‑fach

Die neueste Veröffentlichung auf arXiv (2508.10395v1) stellt XQuant vor – ein innovatives Verfahren, das die Speicherlast bei der Inferenz…

arXiv – cs.LG 15.08.2025 05:00

Finde Modelle, Firmen und Themen

Persistente KV-Cache: Multi-Agent-LLM auf Edge-Geräten effizienter

Energieeffiziente LLM-Inference durch kontextabhängiges Modellwechseln

CHESS: Effiziente, kontextbewusste KV-Cache-Optimierung für LLMs

MedCoG: LLMs im medizinischen Denken dank Meta‑Kognition effizienter

Energieeffizienz bei LLM-Inferezen: optimale Eingabe-/Ausgabe-Längen

Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx

Beschleunigung von LLM-Inferenz mit AWQ und GPTQ auf Amazon SageMaker

LLM-Inference auf Amazon SageMaker AI mit BentoMLs LLM-Optimizer optimieren

Kostenbewusste PoQ: Effiziente Bewertung dezentraler LLM-Inferezen

LLM-Modelle extrahieren Kontext aus Nutzereingaben – sicherere Antworten

Adaptive Soft Rolling KV Freeze: Entropie-gesteuerte Wiederherstellung für LLMs

Bench360: Vollständiges Benchmarking lokaler LLM‑Inferenz aus 360°

vLLM, TensorRT-LLM, HF TGI & LMDeploy: Vergleich für produktiven LLM-Inferring

NVIDIA präsentiert TiDAR: Hybrid-Architektur für schnelle LLM-Inferenz

LLM-Inferezzug: Energieverbrauch von Sprachmodellen gemessen

Sicher und schnell: Duale Privatsphäre für LLM-Inferenz mit CMIF

XQuant reduziert Speicherbedarf bei LLM-Infereenzen um bis zu 10‑fach

🍪 Cookie-Einstellungen