K-Gen: Sprachmodell für interpretierbare Trajektorien in autonomen Fahrsimulation

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In der autonomen Fahrsimulation steht die Erzeugung realistischer und vielfältiger Fahrtrajektorien im Fokus. K-Gen, ein multimodales Sprachmodell, löst dieses Problem, indem es Schlüssel­punkte generiert, die nicht nur die Bewegung eines Fahrzeugs beschreiben, sondern auch die dahinterliegende Intention des Agenten offenlegen.

Traditionelle Ansätze nutzen häufig strukturierte Daten wie Vektor­karten, um Trajektorien vorherzusagen. Diese Methode vernachlässigt jedoch die reichhaltige, unstrukturierte visuelle Umgebung, die für ein glaubwürdiges Fahrszenario entscheidend ist. K-Gen kombiniert rasterisierte Bird‑Eye‑View‑Karten mit textueller Szenenbeschreibung und nutzt Multimodal Large Language Models (MLLMs), um ein umfassenderes Bild zu erzeugen.

Anstatt komplette Trajektorien direkt vorherzusagen, erstellt K-Gen interpretierbare Schlüssel­punkte und liefert dazu eine erklärende Begründung, die die Absichten des Fahrzeugs widerspiegelt. Ein anschließendes Verfeinerungs­modul wandelt diese Punkte in präzise Fahrtrajektorien um. Durch die Anwendung des T‑DAPO‑Algorithmus, einem Trajektorien‑bewussten Reinforcement‑Learning‑Fine‑Tuning, werden die Schlüssel­punkt­generierung und die Trajektorien­qualität weiter verbessert.

Experimentelle Ergebnisse auf den Datensätzen WOMD und nuPlan zeigen, dass K-Gen bestehende Baselines übertrifft. Die Kombination aus multimodaler Logik und Schlüssel­punkt‑gesteuerter Trajektorien­erzeugung demonstriert damit die Wirksamkeit eines interpretierten Ansatzes für die autonome Fahrsimulation.

Ähnliche Artikel