DADP: Neue Domain Adaptive Diffusion Policy revolutioniert Anpassung von Robotern
Die neu vorgestellte Domain Adaptive Diffusion Policy (DADP) löst ein zentrales Problem in der lernbasierten Regelung: die Generalisierung auf bislang unbekannte Übergangsdynamiken. Durch die Kombination von domänenübergreifender Repräsentationsbildung und Diffusionsmodellen schafft DADP robuste Anpassungen ohne zusätzliche Labels.
Traditionelle Ansätze zur Domänenrepräsentation nutzen dynamische Vorhersagen, wobei die Auswahl von Kontexten unmittelbar neben dem aktuellen Zeitschritt zu einer Vermischung statischer Domäneninformationen mit variierenden dynamischen Eigenschaften führt. Diese Mischung verwirrt die bedingte Policy und limitiert die Zero‑Shot‑Anpassung.
DADP begegnet diesem Problem mit der Lagged Context Dynamical Prediction. Hierbei wird die Zustandsvorhersage auf einen historischen Kontext mit vergrößertem Zeitabstand konditioniert. Durch diesen zeitlichen Abstand werden transienten Eigenschaften herausgefiltert und die statischen Domänenrepräsentationen werden unüberwachterweise entangled.
Darüber hinaus werden die erlernten Domänenrepräsentationen direkt in den generativen Prozess integriert: die Priorverteilung wird domänenbewusst verzerrt und das Diffusionsziel neu formuliert. Diese beiden Schritte ermöglichen eine effiziente, domänenunabhängige Anpassung.
Umfangreiche Experimente auf anspruchsvollen Benchmarks in den Bereichen Locomotion und Manipulation zeigen, dass DADP die Leistung früherer Methoden deutlich übertrifft und eine hohe Generalisierbarkeit aufweist. Weitere Visualisierungen und Detailinformationen sind auf der Projektseite verfügbar.