Objektzentrierte Weltmodelle vs. Policy-Learning: Erfolgreich, aber mit Grenzen
In der neuesten Studie von arXiv:2511.06136v1 wird untersucht, wie objektzentrierte Weltmodelle (OCWM) die Leistung von Reinforcement‑Learning‑Agenten verbessern können. OCWM zerlegen Bilddaten in strukturierte, objektbasierte Repräsentationen, die laut den Autoren die Generalisierung auf neue Feature-Kombinationen und die Dateneffizienz steigern sollen.
Das vorgestellte Modell, DLPWM, lernt vollständig unüberwacht und erzeugt disentangled latente Darstellungen direkt aus Pixeln. Es erzielt beeindruckende Rekonstruktions- und Vorhersagewerte und bleibt robust gegenüber mehreren Out‑of‑Distribution‑Variationen. Dennoch zeigte sich bei der anschließenden modellbasierten Steuerung, dass Agenten, die auf DLPWM‑Latenten trainiert wurden, schlechter abschnitten als die Benchmark‑Architektur DreamerV3.
Durch eine Analyse der latenten Trajektorien wurde ein wesentlicher Faktor für die schlechte Performance identifiziert: Während mehrerer Objekte interagieren, verschiebt sich die Repräsentation, was zu instabilem Policy‑Learning führt. Die Ergebnisse unterstreichen, dass objektzentrierte Wahrnehmung zwar robuste visuelle Modelle liefert, aber für stabile Kontrolle zusätzliche Maßnahmen gegen latente Drift erforderlich sind.