Dora: QoE‑bewusster Hybrid‑Parallelismus für verteiltes Edge‑AI
Mit der rasanten Verbreitung von Edge‑AI-Anwendungen wird die Qualität der Nutzererfahrung – insbesondere die Latenz bei Modellinferenz – zu einem zentralen Ziel. Da die Modelle jedoch oft die Ressourcen einzelner Geräte sprengen, muss die Ausführung über heterogene Edge‑Geräte und variable Netzwerke verteilt werden.
Aktuelle Planungsalgorithmen konzentrieren sich vorwiegend auf Durchsatz oder Geräteauslastung und vernachlässigen dabei die QoE‑Kriterien. Das führt zu ineffizientem Energieverbrauch und häufigen QoE‑Verletzungen, wenn sich die Netzwerkbedingungen ändern.
Dora bietet eine ganzheitliche Lösung: Ein heterogenitätsbewusster Modellpartitionierer legt kompakte, QoE‑konforme Ausführungspläne fest. Ein netzwerkbewusster Scheduler optimiert diese Pläne, indem er Rechen- und Kommunikationszeiten überlappt. Ein adaptiver Runtime‑Adapter kombiniert mehrere Pläne dynamisch, um die globale Effizienz zu maximieren und gleichzeitig die QoE‑Grenzen einzuhalten.
In realen Edge‑Umgebungen – von Smart‑Homes über Verkehrsanalysen bis hin zu kleinen Edge‑Clustern – konnte Dora die Ausführungszeit um 1,1 bis 6,3‑fach reduzieren und gleichzeitig den Energieverbrauch senken, ohne die Nutzererfahrung zu beeinträchtigen.