Memory‑V2V: Video‑Editing mit Speicher für konsistente Mehrfachbearbeitung

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Praxis werden Videos häufig in mehreren Runden bearbeitet, wobei Nutzer ihre Ergebnisse schrittweise verfeinern. Aktuelle Video‑to‑Video‑Diffusionsmodelle stoßen dabei jedoch an ihre Grenzen: Sie können die Konsistenz zwischen aufeinanderfolgenden Bearbeitungsschritten nicht zuverlässig gewährleisten.

Mit dem neuen Ansatz Memory‑V2V wird dieses Problem erstmals adressiert. Das System ergänzt bestehende Diffusionsmodelle um einen expliziten Speicher, der zuvor bearbeitete Videos ablegt. Durch präzise Abruf‑ und dynamische Token‑Zuweisungsstrategien kann die aktuelle Bearbeitung gezielt auf frühere Ergebnisse zurückgreifen, wodurch die Konsistenz über mehrere Interaktionen hinweg verbessert wird.

Um die zusätzliche Rechenlast zu minimieren, integriert Memory‑V2V einen lernbaren Token‑Kompressor im DiT‑Backbone. Dieser komprimiert redundante Konditionierungs‑Tokens, behält aber die wesentlichen visuellen Hinweise bei. Der Ansatz führt zu einer Geschwindigkeitssteigerung von rund 30 % und reduziert gleichzeitig die Speicher‑ und Rechenkosten.

Die Leistung von Memory‑V2V wurde an anspruchsvollen Aufgaben wie der Synthese neuer Video‑Ansichten und der textbasierten Bearbeitung langer Videos getestet. Die Ergebnisse zeigen deutlich, dass das Modell nicht nur die Querschnitts‑Konsistenz erheblich steigert, sondern gleichzeitig die spezifische Aufgabenleistung gegenüber aktuellen State‑of‑the‑Art‑Baselines erhält oder sogar verbessert. Weitere Details und Beispielvideos sind auf der Projektseite verfügbar.

Ähnliche Artikel