RAGNav: Neues Framework für Mehrziel‑Vision‑Language‑Navigation

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Vision‑Language‑Navigation (VLN) entwickelt sich von der einfachen Wegfindung zu anspruchsvollen Mehrziel‑Aufgaben. Dabei müssen Agenten mehrere Objekte exakt erkennen und gleichzeitig räumliche sowie sequentielle Zusammenhänge logisch verknüpfen.

Herkömmliche Retrieval‑Augmented‑Generation‑Modelle stoßen hier an Grenzen: ohne explizite räumliche Modellierung entstehen häufig „räumliche Halluzinationen“ und Planungsabweichungen, wenn mehrere Objekte gleichzeitig berücksichtigt werden.

RAGNav löst dieses Problem, indem es semantische Logik mit physischer Struktur verbindet. Das Herzstück ist ein Dual‑Basis‑Speichersystem, das eine detaillierte topologische Karte für die physische Konnektivität mit einem hierarchischen semantischen Wald für die Umgebung abstrahiert.

Durch einen anker‑geleiteten bedingten Abruf und die Ausbreitung von topologischen Nachbarschafts‑Scores kann das System schnell potenzielle Ziele filtern, semantisches Rauschen eliminieren und die semantische Kalibrierung mithilfe der räumlichen Nachbarschaft verbessern.

Experimentelle Tests zeigen, dass RAGNav die Fähigkeit zur Erreichbarkeits‑Logik zwischen Zielen deutlich steigert und die Effizienz der sequentiellen Planung erhöht. Damit erreicht es den aktuellen Stand der Technik bei komplexen Mehrziel‑Navigationstests.

Ähnliche Artikel