Neues Verfahren erzeugt realistische 3D‑Gesten zu Sprache

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die automatische Erzeugung von 3D‑Körperbewegungen aus Sprachsignalen bietet enorme Möglichkeiten für Anwendungen wie virtuelle Assistenten, Gaming und Telepräsenz. Trotz großer Fortschritte bleiben die Bewegungen oft unnatürlich und schlecht koordiniert, weil die zugrunde liegenden Modelle die komplexen Zusammenhänge zwischen Kopf, Körper und Händen nicht vollständig erfassen.

Aktuelle Ansätze – von GANs über VQ‑VAEs bis hin zu Diffusionsmodellen – arbeiten meist end‑to‑end und vernachlässigen dabei die internen und intra‑korrelativen Strukturen verschiedener Bewegungs­einheiten. Das führt zu unrealistischen Gesten und mangelnder Synchronisation.

Um diese Schwächen zu überwinden, stellt das neue Verfahren „Hierarchical Implicit Periodicity“ (HIP) vor. Zunächst werden die Gesten­phasen mit periodischen Autoencodern aufgelöst, sodass die natürlichen, periodischen Muster aus realen Daten und gleichzeitig nicht‑periodische Varianten aus aktuellen Latent‑Zuständen integriert werden. Anschließend wird die hierarchische Beziehung zwischen Gesichts­bewegungen, Körper­gesten und Hand­bewegungen durch stufenweise Anleitung während des Lernens modelliert.

Tests an 3D‑Avataren zeigen, dass HIP die bisher besten Methoden sowohl in quantitativen Metriken als auch in qualitativen Bewertungen übertrifft. Der Ansatz liefert flüssigere, koordiniertere Gesten, die deutlich natürlicher wirken.

Der zugehörige Code und die Modelle sind öffentlich verfügbar und ermöglichen Forschern sowie Entwicklern, die Technik sofort in eigenen Projekten einzusetzen.

Ähnliche Artikel