UniMo: KI-gestützte Bewegungsgenerierung und -verständnis revolutioniert
In der Forschung zu 3‑D‑Bewegungen stoßen herkömmliche Modelle oft an ihre Grenzen, weil sie schwer zu interpretieren sind. Das erschwert die gegenseitige Verbesserung von Generierung und Analyse, zwei Aufgaben, die eng miteinander verknüpft sind.
UniMo, ein neues Framework, löst dieses Problem, indem es Bewegungsdaten und sprachliche Informationen in ein großes Sprachmodell (LLM) einbettet. Durch die Integration von „Chain‑of‑Thought“ (CoT) – also nachvollziehbarem, schrittweiser Denken – wird die Modellinterpretierbarkeit deutlich erhöht. Das Training erfolgt mittels überwachten Feinabstimmens (SFT), wodurch das LLM gezielt lernt, Bewegungen in sprachliche Form zu übersetzen und umgekehrt.
Um die häufig auftretenden Fehler bei der Vorhersage von Bewegungssequenzen zu minimieren, setzt UniMo anschließend auf ein Reinforcement‑Learning‑Verfahren namens Group Relative Policy Optimization (GRPO). Dieses optimiert Gruppen von Tokens gleichzeitig, sodass die strukturelle Korrektheit und semantische Kohärenz der generierten Bewegungen verbessert werden.
Umfangreiche Experimente zeigen, dass UniMo bestehende einheitliche und spezialisierte Modelle deutlich übertrifft. Es erzielt neue Best‑in‑Class‑Ergebnisse sowohl bei der Generierung von Bewegungen als auch bei deren Analyse, und demonstriert damit das Potenzial von KI‑gestützter, interpretierbarer Bewegungsforschung.