ELLMPEG: Lokale KI-gestützte Videobearbeitung ohne Cloud-API

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Large Language Models (LLMs) wie ChatGPT revolutionieren inzwischen nahezu jedes Fachgebiet – auch die Multimedia‑Industrie. Doch die meisten Anwendungen laufen noch in der Cloud, was enorme Rechen- und Energieaufwendungen, Datenschutzrisiken und wiederkehrende API-Kosten mit sich bringt.

Mit dem neuen Tool ELLMPEG wird das Spiel geändert. Das edge‑basierte, agentische LLM-Framework nutzt Retrieval‑Augmented Generation (RAG) in Kombination mit iterativer Selbstreflexion, um FFmpeg‑ und VVenC‑Befehle direkt am Gerät zu erzeugen und zu verifizieren. So entfällt die Abhängigkeit von externen Cloud‑APIs.

In einer umfangreichen Evaluation wurden 480 unterschiedliche Prompt‑Sätze gesammelt, die verschiedene FFmpeg‑ und VVenC‑Befehle abdecken. Vier Open‑Source‑LLMs wurden auf Basis von Befehlsgültigkeit, Token‑Rate, Inferenzzeit und Energieeffizienz getestet. Das Modell Qwen2.5 in Kombination mit ELLMPEG erzielte dabei eine Befehlsgenerierungs‑Genauigkeit von 78 % – und das ohne jegliche API‑Kosten.

Die Ergebnisse zeigen, dass lokale KI‑gestützte Videobearbeitung nicht nur technisch machbar, sondern auch wirtschaftlich und datenschutzfreundlich ist. ELLMPEG eröffnet damit neue Möglichkeiten für Echtzeit‑Video‑Verarbeitung in Bereichen wie Broadcast, Gaming und mobile Anwendungen, ohne die Cloud zu verlassen.

Ähnliche Artikel