Forschung arXiv – cs.AI

Roboter erkennt Nutzerabsicht dank Vision‑Language‑Modellen

Die Zusammenarbeit zwischen Mensch und Roboter verlangt, dass der Roboter die Absicht des Nutzers sofort erkennt, seine Entscheidungen nachvollziehbar macht und bei der Zielerreichung hilft. Unser neues Framework GUIDER…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Die Zusammenarbeit zwischen Mensch und Roboter verlangt, dass der Roboter die Absicht des Nutzers sofort erkennt, seine Entscheidungen nachvollziehbar macht und bei der…
  • Unser neues Framework GUIDER erfüllt genau diese Anforderungen, indem es Navigations‑ und Manipulationsabsichten aus dem Kontext des Benutzers ableitet.
  • Wir erweitern GUIDER um ein Vision‑Language‑Modell (VLM) und ein reines Text‑Language‑Modell (LLM), die gemeinsam eine semantische Priorität bilden.

Die Zusammenarbeit zwischen Mensch und Roboter verlangt, dass der Roboter die Absicht des Nutzers sofort erkennt, seine Entscheidungen nachvollziehbar macht und bei der Zielerreichung hilft. Unser neues Framework GUIDER erfüllt genau diese Anforderungen, indem es Navigations‑ und Manipulationsabsichten aus dem Kontext des Benutzers ableitet.

Wir erweitern GUIDER um ein Vision‑Language‑Modell (VLM) und ein reines Text‑Language‑Modell (LLM), die gemeinsam eine semantische Priorität bilden. Diese Priorität filtert Objekte und Orte anhand des Missionsprompts heraus und sorgt dafür, dass nur relevante Ziele in die Entscheidungsfindung einfließen.

Der Vision‑Pipeline nutzt YOLO zur Objekterkennung und das Segment‑Anything‑Modell zur Instanzsegmentierung. Die erkannten Objekt‑Crops werden an das VLM übergeben, das ihre Relevanz im Kontext des Operator‑Prompts bewertet. Parallel wird die Liste der erkannten Objektnamen von einem text‑basierten LLM nach Relevanz sortiert. Die daraus resultierenden Scores gewichten die bestehenden Navigations‑ und Manipulationsschichten von GUIDER, sodass das System kontextrelevante Ziele auswählt und unerwünschte Objekte unterdrückt.

Sobald die kombinierte Glaubwürdigkeit einen festgelegten Schwellenwert überschreitet, ändert sich die Autonomie des Roboters: Er navigiert zum gewünschten Bereich, greift das gewünschte Objekt auf und passt sich gleichzeitig Änderungen in der Absicht des Operators an. In der kommenden Phase wird das System in der Simulationsumgebung Isaac Sim mit einem Franka‑Emika‑Arm auf einer Ridgeback‑Basis getestet, wobei der Schwerpunkt auf Echtzeit‑Assistenz liegt.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Welches konkrete Problem loest das Modell besser als bisher?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

GUIDER
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
LLM
LLMs sind Sprachmodelle, die Text verstehen, erzeugen und in Produkte eingebettet werden.
VLM
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen