GContextFormer revolutioniert multimodale Trajektorienvorhersage ohne HD‑Karten
Die Vorhersage von Fahrzeugtrajektorien in mehreren möglichen Zukünften ist ein zentrales Problem der autonomen Mobilität. Modelle, die auf hochauflösenden Karten basieren, sind zwar präzise, aber teuer in der Datenerfassung, verlangsamen sich bei Kartenaktualisierungen und sind anfällig für fehlerhafte Eingaben. Auf der anderen Seite verzichten map‑freie Ansätze auf globale Kontextinformationen, was zu einer Überbetonung geradliniger Muster und einer Unterdrückung von Übergangsbewegungen führt – ein Fehler, der die Absichtserkennung der Fahrzeuge beeinträchtigt.
GContextFormer bietet eine neue Lösung: eine plug‑and‑play Encoder‑Decoder‑Architektur, die globale Kontextinformationen mit einem hybriden Multi‑Head‑Attention-Mechanismus kombiniert und dabei eine skalierte additive Aggregation nutzt. Der Motion‑Aware Encoder erzeugt eine Szenen‑weite Absichtsvorlage, indem er die Trajektorien‑Tokens über die Modi aggregiert und gleichzeitig die Modrepräsentationen unter einem gemeinsamen globalen Kontext verfeinert. Dadurch werden Inter‑Modus‑Unterdrückung reduziert und die Absichtsausrichtung verbessert.
Der Hierarchical Interaction Decoder teilt die soziale Interaktion in zwei Pfade auf: ein Standard‑Pfad sorgt für eine gleichmäßige geometrische Abdeckung aller Agenten‑Modus‑Paare, während ein benachbarter Kontext‑Pfad die wichtigsten Interaktionen hervorhebt. Ein Gating‑Modul balanciert die Beiträge beider Pfade, sodass sowohl umfassende Abdeckung als auch fokussierte Aufmerksamkeit erhalten bleiben.
In Experimenten mit acht Hochgeschwindigkeits‑Rampenszenarien aus dem TOD‑VT‑Datensatz übertrifft GContextFormer die aktuellen Spitzenmodelle deutlich. Durch die Kombination von globalem Kontext, skalierter Aggregation und einem zweigleisigen Decoder liefert die Methode intention‑ausgerichtete, multimodale Vorhersagen ohne die Abhängigkeit von Karten, was die Robustheit und Anwendbarkeit in realen Verkehrssituationen erheblich steigert.