Roboter erkennt Nutzerabsicht dank Vision‑Language‑Modellen
Die Zusammenarbeit zwischen Mensch und Roboter verlangt, dass der Roboter die Absicht des Nutzers sofort erkennt, seine Entscheidungen nachvollziehbar macht und bei der Zielerreichung hilft. Unser neues Framework GUIDER erfüllt genau diese Anforderungen, indem es Navigations‑ und Manipulationsabsichten aus dem Kontext des Benutzers ableitet.
Wir erweitern GUIDER um ein Vision‑Language‑Modell (VLM) und ein reines Text‑Language‑Modell (LLM), die gemeinsam eine semantische Priorität bilden. Diese Priorität filtert Objekte und Orte anhand des Missionsprompts heraus und sorgt dafür, dass nur relevante Ziele in die Entscheidungsfindung einfließen.
Der Vision‑Pipeline nutzt YOLO zur Objekterkennung und das Segment‑Anything‑Modell zur Instanzsegmentierung. Die erkannten Objekt‑Crops werden an das VLM übergeben, das ihre Relevanz im Kontext des Operator‑Prompts bewertet. Parallel wird die Liste der erkannten Objektnamen von einem text‑basierten LLM nach Relevanz sortiert. Die daraus resultierenden Scores gewichten die bestehenden Navigations‑ und Manipulationsschichten von GUIDER, sodass das System kontextrelevante Ziele auswählt und unerwünschte Objekte unterdrückt.
Sobald die kombinierte Glaubwürdigkeit einen festgelegten Schwellenwert überschreitet, ändert sich die Autonomie des Roboters: Er navigiert zum gewünschten Bereich, greift das gewünschte Objekt auf und passt sich gleichzeitig Änderungen in der Absicht des Operators an. In der kommenden Phase wird das System in der Simulationsumgebung Isaac Sim mit einem Franka‑Emika‑Arm auf einer Ridgeback‑Basis getestet, wobei der Schwerpunkt auf Echtzeit‑Assistenz liegt.