R3: Dual-Prozess-System verbessert Vision-and-Language Navigation um 3,3 %
In der Vision-and-Language Navigation (VLN) muss ein Agent komplexe 3‑D‑Umgebungen dynamisch erkunden und dabei menschliche Anweisungen befolgen. Trotz der beeindruckenden Allgemeinwissen‑ und Denkfähigkeiten großer Spr…