Neues Benchmark TAD: Zeigt Schwächen aktueller VLMs im autonomen Fahren
Ein neues Benchmark namens Temporal Understanding in Autonomous Driving (TAD) wurde vorgestellt, um die Fähigkeit von Vision‑Language‑Modellen (VLMs) zu testen, dynamische Zusammenhänge in ego‑zentrierter Fahrvideos zu erfassen. TAD besteht aus fast 6.000 Frage‑Antwort‑Paaren, die sieben speziell entworfene Aufgaben abdecken und damit die bislang fehlende Fokussierung auf die einzigartigen Herausforderungen des autonomen Fahrens adressieren.
Bei der Evaluation wurden neun Modelle – darunter sowohl offene als auch proprietäre Generalisten als auch spezialisierte AD‑Modelle – auf TAD getestet. Die Ergebnisse zeigen, dass die aktuellen Spitzenmodelle noch immer unterdurchschnittliche Genauigkeiten liefern, hauptsächlich weil sie die feinen Bewegungsdetails nicht ausreichend verstehen. Diese Schwäche verdeutlicht die Notwendigkeit gezielter Verbesserungen im Bereich der zeitlichen Wahrnehmung.
Um die Bewegungsverständnis‑Leistung zu steigern, wurden zwei training‑freie Ansätze entwickelt: Scene‑CoT, das die Chain‑of‑Thought‑Logik nutzt, und TCogMap, ein ego‑zentrierter temporärer kognitiver Kartenmechanismus. Durch die Integration dieser Methoden in bestehende VLMs konnte die durchschnittliche Genauigkeit auf TAD um bis zu 17,72 % erhöht werden, was einen bedeutenden Fortschritt darstellt.
Der TAD‑Benchmark sowie der zugehörige Evaluationscode stehen öffentlich zur Verfügung und sollen die Forschungsgemeinschaft dazu anregen, neue Ansätze für die zeitliche Analyse im autonomen Fahren zu entwickeln. Mit dieser Initiative wird ein wichtiger Schritt unternommen, um die Zuverlässigkeit und Sicherheit von selbstfahrenden Systemen weiter zu verbessern.