Atom: Modulare Video‑Sprach‑Pipelines mit Wiederverwendung auf Mobilgeräten
Ein neues System namens Atom verspricht, die Verarbeitung von Video‑Sprach‑Modellen direkt auf Smartphones deutlich zu beschleunigen. Durch die modulare Wiederverwendung von Kernkomponenten wie dem visuellen Encoder und dem Sprachdecoder können mehrere Aufgaben – von der Beschriftung über die Analyse bis zur Indexierung – gleichzeitig und ohne wiederholtes Laden des gesamten Modells ausgeführt werden.
Traditionell erfordern Video‑Sprach‑Pipelines mehrere aufeinanderfolgende Schritte, die jeweils ein großes Modell laden und ausführen. Diese Vorgehensweise führt zu hoher Latenz, hohem Speicherverbrauch und ineffizienter Nutzung der Hardware. Atom löst dieses Problem, indem es ein einziger, ein Milliarden‑Parameter‑Modell in wiederverwendbare Module zerlegt, die für verschiedene Unteraufgaben gemeinsam genutzt werden.
Durch die Eliminierung redundanter Modell‑Ladevorgänge und die Möglichkeit, die einzelnen Module parallel zu betreiben, reduziert Atom die End‑zu‑End‑Latenz um 27 % bis 33 % auf handelsüblichen Smartphones. Gleichzeitig bleibt die Leistung nahezu unverändert: Der Rückrufwert bei Video‑Abruf‑Aufgaben sinkt höchstens um 2,3 % und die Bild‑Beschriftungs‑Metrik CIDEr um 1,5 %. Diese Ergebnisse zeigen, dass Atom eine praktikable und skalierbare Lösung für die effiziente Video‑Sprach‑Verarbeitung am Edge darstellt.