Kompaktes latentes Modell erhöht Steuerung in Gefahrensituationen um 13 %
In der autonomen Inspektion von gefährlichen Umgebungen müssen KI-Agenten hochrangige Ziele verstehen und präzise Aktionen ausführen. Ein entscheidendes Element dafür ist die räumliche Zuordnung, etwa wenn ein Drohnenpilot ein erfasstes Objekt im Kamerabild zentrieren muss. Große Sprachmodelle bieten zwar eine natürliche Schnittstelle zur Zieldefinition, doch ihre direkte Anwendung für die visuelle Steuerung erzielt bislang nur 58 % Erfolg.
Um diese Lücke zu schließen, stellen die Autoren ein task‑spezifisches latentes Dynamikmodell vor, das Zustands‑ und Aktions‑Shifts in einem gemeinsamen latenten Raum lernt – und das ausschließlich mit Ziel‑Zustands‑Supervision. Durch globale Aktions‑Embeddings und ergänzende Trainingsverluste wird das Lernen stabilisiert, während das Modell kompakt bleibt und keine aufwändige Daten‑ oder Rechenintensität erfordert.
In Experimenten erreicht das neue Modell eine Erfolgsrate von 71 % und generalisiert zuverlässig auf unbekannte Bilder und Anweisungen. Die Ergebnisse zeigen, dass kompakte, domänenspezifische latente Dynamikmodelle das Potenzial besitzen, die räumliche Ausrichtung in autonomen Inspektionsaufgaben deutlich zu verbessern.