Suche

Finde Modelle, Firmen und Themen

Suche im News-Archiv nach Themen, die du dauerhaft verfolgen willst.

Ergebnisse für “Vision-and-Language Navigation”
Forschung

<p>UNeMo: Multimodales Weltmodell verbessert visuell-sprachliche Navigation</p> <p>Die Vision-and-Language Navigation (VLN) stellt Agenten vor die Aufgabe, komplexe Umgebungen allein durch visuelle Bilder und natürliche Sprachbefehle zu erkunden. Aktuelle Fortschritte mit großen Sprachmodellen (LLMs) haben die sprachbasierte Navigation verbessert, doch die Fähigkeit, visuelle Informationen zu verarbeiten, bleibt begrenzt. Zudem werden die Reasoning‑Module häufig getrennt von den Navigationsstrategien traini

arXiv – cs.AI