Neues Benchmark Ambi3D erkennt 3D-Befehlsambigüität für sicherere KI

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In sicherheitskritischen Bereichen kann ein mehrdeutiger Befehl wie „Gib mir das Fläschchen“ im Operationssaal zu katastrophalen Fehlern führen. Trotz dieser Gefahr vernachlässigen die meisten Forschungen im Bereich der eingebetteten KI die Frage, ob Anweisungen eindeutig sind, und konzentrieren sich ausschließlich auf die Ausführung.

Um diese Lücke zu schließen, stellen die Autoren die erste Definition von Open‑Vocabulary 3D Instruction Ambiguity Detection vor – eine neue Aufgabe, bei der ein Modell entscheiden muss, ob ein Befehl in einer gegebenen 3‑D‑Szene eindeutig interpretiert werden kann. Als Grundlage dafür haben sie Ambi3D entwickelt, ein umfangreiches Benchmark mit über 700 vielfältigen 3‑D‑Szenen und rund 22.000 Anweisungen.

Die Analyse zeigt, dass aktuelle 3‑D‑Large‑Language‑Modelle Schwierigkeiten haben, Ambiguität zuverlässig zu erkennen. Darauf aufbauend präsentiert das Team AmbiVer, ein zweistufiges Verfahren, das aus mehreren Ansichten explizite visuelle Beweise sammelt und ein Vision‑Language‑Modell anleitet, die Ambiguität zu beurteilen. Umfangreiche Experimente belegen sowohl die Herausforderung der neuen Aufgabe als auch die Wirksamkeit von AmbiVer.

Der Code und das Dataset sind frei verfügbar unter https://jiayuding031020.github.io/ambi3d/, was einen wichtigen Schritt zu sicherer und vertrauenswürdiger eingebetteter KI darstellt.

Ähnliche Artikel