Drive-KD: Mehrfach-Teacher-Distillation für effiziente VLMs im autonomen Fahren

arXiv – cs.AI Original ≈2 Min. Lesezeit
Anzeige

Autonomes Fahren steht im Fokus der neuesten KI-Forschung, weil es sowohl sicherheitskritisch als auch technologisch herausfordernd ist. Durch die jüngsten Fortschritte bei großen Sprach- und Vision‑Modellen eröffnen sich neue Möglichkeiten für komplexe Entscheidungsprozesse auf der Straße. Doch diese Modelle benötigen enorme GPU‑Speicherkapazitäten und führen zu langen Inferenzzeiten, während herkömmliches supervised fine‑tuning (SFT) oft nicht die nötigen Fähigkeiten für kleinere Modelle vermittelt.

Um diese Engpässe zu überwinden, präsentiert die neue Studie Drive‑KD, ein Framework, das das autonome Fahren in die drei Kernbereiche „Perception“, „Reasoning“ und „Planning“ zerlegt und die jeweiligen Kompetenzen gezielt über Knowledge Distillation überträgt. Dabei wird die auf Layer‑spezifische Aufmerksamkeit basierende Distillation als Signal genutzt, um einzelne, auf eine Fähigkeit spezialisierte Teacher‑Modelle zu erzeugen, die bereits die Basis‑Modelle übertreffen. Anschließend werden diese Einzel‑Teacher‑Modelle in einem Multi‑Teacher‑Distillation‑Setup zusammengeführt, wobei eine asymmetrische Gradient‑Projection‑Methode eingesetzt wird, um Konflikte zwischen den verschiedenen Fähigkeitsgradienten zu reduzieren.

Die umfangreichen Tests zeigen, dass Drive‑KD die Generalisierbarkeit über verschiedene Modellfamilien und Größen hinweg verbessert. Besonders beeindruckend ist das distillierte InternVL3‑1B‑Modell, das mit rund 42‑fach weniger GPU‑Speicherbedarf und einer 11,4‑fach höheren Durchsatzrate arbeitet und dennoch die Gesamtleistung des 78‑Billionen‑Parameter‑Modells derselben Familie auf dem DriveBench‑Benchmark übertrifft. Darüber hinaus übertrifft es sogar GPT‑5.1 in der Planungsdimension, was einen wichtigen Schritt in Richtung effizienter, leistungsfähiger VLMs für das autonome Fahren darstellt.

Ähnliche Artikel