RoboDriveBench: Benchmark für robuste Vision‑Language‑Modelle im autonomen Fahren
In einer Zeit, in der Vision‑Language‑Modelle (VLMs) zunehmend als zentrale Entscheidungsinstanz in autonomen Fahrsystemen eingesetzt werden, stellt sich die Frage, ob diese Modelle auch unter realen Bedingungen zuverlässig funktionieren. Das neue Benchmark-Projekt RoboDriveBench liefert dazu die erste systematische Bewertung von VLM‑basierten End‑to‑End-Lösungen für die Trajektorienvorhersage.
RoboDriveBench umfasst 11 simulierte Szenarien, die zwei wesentliche Risikokategorien abdecken: sensorische Störungen, die durch Umweltvariationen entstehen, und Prompt‑Störungen, die durch menschliche Eingriffe oder Datenübertragungsfehler verursacht werden. Für jede Störungstypen werden 250 einzigartige Fahrszenarien mit insgesamt 5 689 Frames generiert, was zu 64 559 Trajektorienvorhersagefällen pro Evaluation führt. Diese umfangreiche Testmenge ermöglicht es, die Robustheit von VLM‑Systemen unter vielfältigen realitätsnahen Bedingungen zu prüfen.
Zur Bewältigung dieser Herausforderungen präsentiert das Team einen neuen VLM‑basierten Fahrrahmen namens RoboDriveVLM. Der Ansatz integriert multimodale Sensordaten – darunter LiDAR und Radar – in einen gemeinsamen latenten Raum, wodurch die Modellinterpretation verbessert wird. Zusätzlich wird eine Test‑Time‑Adaptation (TTA) Methode eingeführt, die auf cross‑modaler Wissensdistillation basiert und die Anpassungsfähigkeit des Modells während des Betriebs erhöht.
Durch umfangreiche Experimente zeigt die Studie die Grenzen aktueller VLM‑basierter End‑to‑End‑Fahrsysteme auf und liefert gleichzeitig einen soliden Baseline-Ansatz für zukünftige Entwicklungen. RoboDriveBench und RoboDriveVLM stellen damit wichtige Werkzeuge für die Forschung und Entwicklung sicherer, robuster autonomer Fahrsysteme dar.