Latente Partikel-Weltmodelle: Selbstüberwachtes, objektzentriertes Stochastikmodell
Ein neues Forschungsprojekt namens Latent Particle World Model (LPWM) präsentiert ein selbstüberwachtes, objektzentriertes Weltmodell, das für reale Mehrobjekt-Datensätze skaliert und in Entscheidungsprozessen einsetzbar ist.
LPWM erkennt eigenständig Schlüsselpunkte, Begrenzungsrahmen und Objektmasken direkt aus Videodaten. Dadurch kann es komplexe Szenenzerlegungen ohne jegliche Supervision erlernen und bietet eine robuste Grundlage für die Analyse von Mehrobjekt-Umgebungen.
Die Architektur wird vollständig end-to-end aus Videos trainiert und unterstützt flexible Konditionierung auf Aktionen, Sprache und Bildziele. Durch ein neuartiges latentes Aktionsmodul modelliert LPWM stochastische Partikeldynamiken und erzielt damit führende Ergebnisse auf einer Vielzahl realer und synthetischer Datensätze.
Über die reine Videoanalyse hinaus lässt sich LPWM problemlos in Entscheidungsfindungen integrieren, etwa bei zielgerichtetem Imitation Learning. Der zugehörige Code, die Daten, vortrainierte Modelle und Videoausgaben sind öffentlich zugänglich unter https://taldatech.io/lpwm-web.