Suche nach Offloading | meineki.news

Neue Methode optimiert lokale Sprachmodelle und Cloud‑Nutzung bei Budgetgrenzen

In der Forschung zu kleinen Sprachmodellen (SLMs), die lokal auf Geräten laufen, ist es entscheidend, dass diese Modelle kontinuierlich neu…

arXiv – cs.LG 03.02.2026 05:00

Forschung

FlashMoE: SSD-Cache für Mixture-of-Experts auf Edge-Geräten optimiert

Die neueste Forschung im Bereich der großen Sprachmodelle zeigt, dass Mixture-of-Experts (MoE) dank ihrer sparsamen Aktivierung selbst auf…

arXiv – cs.LG 27.01.2026 05:00

Forschung

ORBITFLOW: Adaptive KV-Cache-Optimierung steigert LLM-Performance um bis zu 3,3× Die Ausführung von Sprachmodellen mit langen Kontexten stellt die KI-Community vor ein großes Problem: Während die Token‑Generierung fortschreitet, schwankt der Speicherbedarf stark, sodass die GPU‑Speicherauslastung unvorhersehbar wird. Traditionelle Offloading‑Strategien, die KV‑Caches statisch in den Host‑Speicher verschieben, können diese Schwankungen nicht in Echtzeit ausgleichen. Das führt zu häufigen CPU‑zu‑GPU

arXiv – cs.AI 19.01.2026 05:00

Forschung

Mit dem rasanten Wachstum von IoT-Geräten und latenzsensiblem Computing steigt der Bedarf an Echtzeit- und energieeffizienter Verarbeitung, was herkömmliche Cloud‑Architekturen stark belastet. Mobile Edge Computing (MEC) entlastet die Cloud, indem Rechenaufgaben näher an den Endnutzer ausgelagert werden. Doch die begrenzten Rechenressourcen, die nicht kontinuierliche Stromversorgung (z. B. batteriebetriebene Knoten) und die stark dynamische Systemlandschaft der Edge‑Server erschweren eine effizien

arXiv – cs.LG 13.01.2026 05:00

Forschung

Low‑Rank-Kompression für Mixture-of-Experts: Bandbreite optimiert

Die neueste Forschung präsentiert eine bahnbrechende Methode, die die Bandbreite von Mixture-of-Experts (MoE) Modellen drastisch reduziert…

arXiv – cs.LG 22.12.2025 05:00

Forschung

Cyber Humanismus in der Bildung: KI stärkt Lernende als Akteure

Generative Künstliche Intelligenz (GenAI) verändert die Art und Weise, wie Wissen in der Bildung erzeugt und geprüft wird. Statt lediglich…

arXiv – cs.AI 19.12.2025 05:00

Forschung

Drohnen‑Netzwerke: Auktion & Diffusions‑MARL optimieren Aufgaben & Flugbahnen In den letzten Jahren haben sich Low‑Altitude Intelligent Networks (LAINs) als vielversprechende Plattform für schnelle, energieeffiziente Edge‑Intelligenz in dynamischen, infrastrukturlosen Umgebungen etabliert. Durch die Kombination von unbemannten Luftfahrzeugen (UAVs), Luft‑Basisstationen und terrestrischen Basisstationen können LAINs kritische Anwendungen wie Katastrophenhilfe, Umweltüberwachung und Echtzeit‑Sensori

arXiv – cs.LG 16.12.2025 05:00

Forschung

Kontextbewusste MoE-Inferenz auf CXL-fähigen GPU‑NDP-Systemen

Die neueste Forschung zeigt, wie Mixture‑of‑Experts‑Modelle (MoE) die Skalierung großer Sprachmodelle durch bedingte Berechnung beschleunig…

arXiv – cs.LG 05.12.2025 05:00

Forschung

TRIM‑KV: Intelligente Token‑Retention verbessert LLM‑Speicherleistung

In der Welt der großen Sprachmodelle (LLMs) stellen Speicher- und Rechenkosten die größten Hindernisse für lange Kontextverarbeitung dar. D…

arXiv – cs.LG 04.12.2025 05:00

Forschung

Zwei‑Stufen‑Optimierung für KI‑Aufgaben‑Auslagerung im Internet der Agenten

Das Internet der Agenten (IoA) entwickelt sich rasch zu einer zentralen Architektur für vernetzte Intelligenzsysteme. Es ermöglicht intelli…

arXiv – cs.AI 01.12.2025 05:00

Forschung

MoE‑SpeQ: Spekulatives Quantisierung‑Decoding mit proaktivem Expert‑Prefetching

Die neuesten Mixture‑of‑Experts‑Modelle fordern enorme Speicherressourcen, die oft die Kapazität eines einzelnen Beschleunigers sprengen. T…

arXiv – cs.LG 19.11.2025 05:00

Forschung

MoE-Offloading: Neue Caching‑Strategien und Pre‑Fetching steigern Effizienz

Die Mixture‑of‑Experts‑Architektur (MoE) ist heute ein zentraler Baustein der fortschrittlichsten KI‑Modelle. Durch ihre besondere Struktur…

arXiv – cs.LG 11.11.2025 05:00

Forschung

FLUX: Federiertes Feintuning sparsamer LLMs auf ressourcenbeschränkten Geräten

Das neue System FLUX löst ein langjähriges Problem im Bereich der künstlichen Intelligenz: Das federierte Feintuning von Mixture-of-Experts…

arXiv – cs.AI 28.08.2025 05:00

Praxis

DeepSpeed präsentiert ZenFlow: Der stallfreie Offloading-Engine für LLM-Training

DeepSpeed hat ZenFlow vorgestellt, einen neuen Offloading-Engine, der ein zentrales Problem beim Training großer Sprachmodelle (LLM) adress…

MarkTechPost 21.08.2025 00:52

Praxis

ZenFlow: Neue, stallfreie Offloading-Engine für LLM-Training

ZenFlow ist eine neue Erweiterung von DeepSpeed, die im Sommer 2025 vorgestellt wurde. Sie dient als stallfreie Offloading-Engine für das T…

PyTorch – Blog 20.08.2025 19:52

Forschung

J3O: Optimiertes Onloading & Offloading für Multi-Task-Inference mit Batch Die steigende Nachfrage nach intelligenten Diensten auf ressourcenbeschränkten Edge‑Geräten hat die Entwicklung kollaborativer Inferenzsysteme vorangetrieben, die Aufgaben zwischen Endgeräten, Edge‑Servern und der Cloud verteilen. Während die meisten bestehenden Frameworks sich auf Ein‑Task‑Ein‑Modell‑Szenarien konzentrieren, erfordern Anwendungen wie autonomes Fahren oder Augmented Reality gleichzeitig mehrere Aufgaben – E

arXiv – cs.LG 20.08.2025 05:00

Finde Modelle, Firmen und Themen

Neue Methode optimiert lokale Sprachmodelle und Cloud‑Nutzung bei Budgetgrenzen

FlashMoE: SSD-Cache für Mixture-of-Experts auf Edge-Geräten optimiert

Low‑Rank-Kompression für Mixture-of-Experts: Bandbreite optimiert

Cyber Humanismus in der Bildung: KI stärkt Lernende als Akteure

Kontextbewusste MoE-Inferenz auf CXL-fähigen GPU‑NDP-Systemen

TRIM‑KV: Intelligente Token‑Retention verbessert LLM‑Speicherleistung

Zwei‑Stufen‑Optimierung für KI‑Aufgaben‑Auslagerung im Internet der Agenten

MoE‑SpeQ: Spekulatives Quantisierung‑Decoding mit proaktivem Expert‑Prefetching

MoE-Offloading: Neue Caching‑Strategien und Pre‑Fetching steigern Effizienz

FLUX: Federiertes Feintuning sparsamer LLMs auf ressourcenbeschränkten Geräten

DeepSpeed präsentiert ZenFlow: Der stallfreie Offloading-Engine für LLM-Training

ZenFlow: Neue, stallfreie Offloading-Engine für LLM-Training

🍪 Cookie-Einstellungen