SimGenHOI: Realistische Humanoide-Objekt-Interaktion mit generativem Modell & RL
Die neue Methode SimGenHOI löst ein zentrales Problem der Robotik: die Erzeugung physikalisch plausibler Interaktionen zwischen humanoiden Robotern und Objekten. Durch die Kombination von generativem Modellieren und Verstärkungslernen liefert das System kontrollierbare, realistische Bewegungen, die in echten Umgebungen erfolgreich ausgeführt werden können.
Im Kern steht ein Diffusion Transformer, der aus Textbeschreibungen, der Geometrie des Objekts, wenigen Wegpunkten und der Ausgangspose des Roboters Schlüsselaktionen vorhersagt. Diese Aktionen werden anschließend zu glatten Trajektorien interpoliert, wodurch lange Zeiträume ohne Verlust an Detailtreue abgedeckt werden können.
Zur Gewährleistung der physikalischen Korrektheit wurde eine kontaktbewusste Ganzkörperkontrollpolicy entwickelt, die mit Verstärkungslernen trainiert wurde. Sie verfolgt die generierten Bewegungen und korrigiert gleichzeitig typische Fehler wie Körperpenetrationen oder Fußschlupf. Durch einen iterativen Feinabstimmungsprozess, bei dem das generative Modell und die Kontrollpolicy sich gegenseitig verbessern, steigt die Realitätsnähe der Bewegungen und die Stabilität der Ausführung.
Umfangreiche Simulationstests zeigen, dass SimGenHOI deutlich höhere Erfolgsraten bei der Nachverfolgung erzielt und gleichzeitig vielfältige, realistische Interaktionen erzeugt. Damit eröffnet die Methode neue Möglichkeiten für die Entwicklung von Robotern, die komplexe Aufgaben in der realen Welt bewältigen können.