PRISM‑WM: Kompositionalmodell für präzises Planen in hybriden Robotiksystemen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der Robotik stellt die hybride Natur physikalischer Dynamik – kontinuierliche Bewegung, die von diskreten Ereignissen wie Kontakten und Stößen unterbrochen wird – eine zentrale Herausforderung für modellbasierte Planung dar. Traditionelle latente Weltmodelle setzen meist monolithische neuronale Netze ein, die globale Kontinuität erzwingen und dadurch die klaren Dynamikmodi (z. B. Haftung vs. Gleiten, Flug vs. Stand) übermäßig glätten. Für einen Planer führt diese Glättung zu katastrophalen Fehlerakkumulationen bei langen Vorhersagen und macht die Suchprozesse an physikalischen Grenzen unzuverlässig.

Um diesem Problem zu begegnen, wurde das Prismatic World Model (PRISM‑WM) entwickelt. Das Modell nutzt eine strukturierte Mixture‑of‑Experts‑Architektur, bei der ein Gating‑Mechanismus den aktuellen physischen Modus implizit erkennt und spezialisierte Experten die zugehörigen Übergangsdynamiken vorhersagen. Zusätzlich wird ein latentes Orthogonalitätsziel eingeführt, das die Vielfalt der Experten sicherstellt und Modus‑Kollaps verhindert. Durch die präzise Modellierung scharfer Moduswechsel reduziert PRISM‑WM signifikant die Drift bei Rollouts.

Umfangreiche Experimente auf anspruchsvollen kontinuierlichen Steuerungsbenchmarks – darunter hochdimensionale Humanoide und vielfältige Multi‑Task‑Umgebungen – zeigen, dass PRISM‑WM eine hochpräzise Basis für Trajektorienoptimierungsalgorithmen wie TD‑MPC bietet. Die Ergebnisse unterstreichen das Potenzial des Modells als leistungsfähige Grundlage für die nächste Generation von modellbasierten Planungswerkzeugen in der Robotik.

Ähnliche Artikel