<p>UNeMo: Multimodales Weltmodell verbessert visuell-sprachliche Navigation</p> <p>Die Vision-and-Language Navigation (VLN) stellt Agenten vor die Aufgabe, komplexe Umgebungen allein durch visuelle Bilder und natürliche Sprachbefehle zu erkunden. Aktuelle Fortschritte mit großen Sprachmodellen (LLMs) haben die sprachbasierte Navigation verbessert, doch die Fähigkeit, visuelle Informationen zu verarbeiten, bleibt begrenzt. Zudem werden die Reasoning‑Module häufig getrennt von den Navigationsstrategien traini
Anzeige