Test-Time Mixture of World Models verbessert Anpassungsfähigkeit von Agents
In der aktuellen Forschung werden Sprachmodell-basierte Embodied Agents immer häufiger in realen Umgebungen eingesetzt. Ihre Fähigkeit, sich an dynamische Szenarien anzupassen, bleibt jedoch begrenzt, weil die zugrunde liegenden Weltmodelle nicht flexibel genug sind. Um dieses Problem zu lösen, erweitert die neue Methode Test-Time Mixture of World Models (TMoW) das klassische Mixture-of-Experts-Paradigma, indem sie die Routenfunktion während der Inferenz anpasst.
TMoW nutzt ein mehrstufiges prototypenbasiertes Routing, das sowohl Objekte als auch Szenen berücksichtigt. Durch die Testzeit-Optimierung werden unbekannte Domänenmerkmale mit den vorhandenen Prototypen abgeglichen, sodass der Agent sofort auf neue Umgebungen reagieren kann. Zusätzlich ermöglicht die distillierte, mix-basierte Erweiterung die schnelle Erstellung neuer Modelle aus wenigen Beispielen, ohne umfangreiche Neu-Trainings.
Die Evaluierung auf den Benchmarks VirtualHome, ALFWorld und RLBench zeigt, dass TMoW sowohl bei Zero-Shot-Adaptation als auch bei Few-Shot-Erweiterungen deutlich bessere Ergebnisse erzielt als herkömmliche MoE-Architekturen. Damit demonstriert die Methode, wie Embodied Agents in sich verändernden Umgebungen effektiver agieren können.