Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Offloading”
Forschung

<p>ORBITFLOW: Adaptive KV-Cache-Optimierung steigert LLM-Performance um bis zu 3,3×</p> <p>Die Ausführung von Sprachmodellen mit langen Kontexten stellt die KI-Community vor ein großes Problem: Während die Token‑Generierung fortschreitet, schwankt der Speicherbedarf stark, sodass die GPU‑Speicherauslastung unvorhersehbar wird. Traditionelle Offloading‑Strategien, die KV‑Caches statisch in den Host‑Speicher verschieben, können diese Schwankungen nicht in Echtzeit ausgleichen. Das führt zu häufigen CPU‑zu‑GPU

arXiv – cs.AI
Forschung

<p>Mit dem rasanten Wachstum von IoT-Geräten und latenzsensiblem Computing steigt der Bedarf an Echtzeit- und energieeffizienter Verarbeitung, was herkömmliche Cloud‑Architekturen stark belastet.</p> <p>Mobile Edge Computing (MEC) entlastet die Cloud, indem Rechenaufgaben näher an den Endnutzer ausgelagert werden. Doch die begrenzten Rechenressourcen, die nicht kontinuierliche Stromversorgung (z. B. batteriebetriebene Knoten) und die stark dynamische Systemlandschaft der Edge‑Server erschweren eine effizien

arXiv – cs.LG
Forschung

<p>Drohnen‑Netzwerke: Auktion & Diffusions‑MARL optimieren Aufgaben & Flugbahnen</p> <p>In den letzten Jahren haben sich Low‑Altitude Intelligent Networks (LAINs) als vielversprechende Plattform für schnelle, energieeffiziente Edge‑Intelligenz in dynamischen, infrastrukturlosen Umgebungen etabliert. Durch die Kombination von unbemannten Luftfahrzeugen (UAVs), Luft‑Basisstationen und terrestrischen Basisstationen können LAINs kritische Anwendungen wie Katastrophenhilfe, Umweltüberwachung und Echtzeit‑Sensori

arXiv – cs.LG
Forschung

<p>J3O: Optimiertes Onloading & Offloading für Multi-Task-Inference mit Batch</p> <p>Die steigende Nachfrage nach intelligenten Diensten auf ressourcenbeschränkten Edge‑Geräten hat die Entwicklung kollaborativer Inferenzsysteme vorangetrieben, die Aufgaben zwischen Endgeräten, Edge‑Servern und der Cloud verteilen. Während die meisten bestehenden Frameworks sich auf Ein‑Task‑Ein‑Modell‑Szenarien konzentrieren, erfordern Anwendungen wie autonomes Fahren oder Augmented Reality gleichzeitig mehrere Aufgaben – E

arXiv – cs.LG