NoRD: Vision-Language-Action-Modell fährt ohne umfangreiche Daten und Reasoning

Kernaussagen

Das nimmst du aus dem Beitrag mit

Ein neues Forschungsergebnis aus dem Bereich autonomes Fahren präsentiert NoRD, ein Vision‑Language‑Action‑Modell, das ohne umfangreiche Datensammlungen und ohne aufwänd…
Die Autoren zeigen, dass die Leistung des Modells mit weniger als 60 % der üblichen Trainingsdaten und ohne zusätzliche Reasoning‑Tokens nahezu gleichwertig bleibt.
Derzeit setzen Vision‑Language‑Action‑Modelle auf modulare Pipelines, die große Mengen an Bild‑ und Textdaten sowie detaillierte Reasoning‑Labels erfordern.

Ein neues Forschungsergebnis aus dem Bereich autonomes Fahren präsentiert NoRD, ein Vision‑Language‑Action‑Modell, das ohne umfangreiche Datensammlungen und ohne aufwändige Reasoning‑Annotationen auskommt. Die Autoren zeigen, dass die Leistung des Modells mit weniger als 60 % der üblichen Trainingsdaten und ohne zusätzliche Reasoning‑Tokens nahezu gleichwertig bleibt.

Derzeit setzen Vision‑Language‑Action‑Modelle auf modulare Pipelines, die große Mengen an Bild‑ und Textdaten sowie detaillierte Reasoning‑Labels erfordern. NoRD löst diese beiden Engpässe, indem es die Datenmenge drastisch reduziert und die Notwendigkeit von Reasoning‑Annotations komplett eliminiert. Dadurch werden die Trainingskosten um ein Drittel gesenkt und die Token‑Anzahl um das Dreifache verringert.

Ein zentrales Element der Methode ist die Integration von Dr. GRPO, einem Algorithmus, der die sogenannte Difficulty‑Bias‑Problematik adressiert. Standard‑GRPO kann bei kleinen, reasoning‑freien Datensätzen nicht signifikante Verbesserungen erzielen, weil es stark von Szenarien mit hoher Varianz abhängt. Dr. GRPO gleicht diesen Bias aus und ermöglicht es NoRD, stabile und effiziente Steuerungsentscheidungen zu treffen.

In Tests auf den Benchmark‑Datensätzen Waymo und NAVSIM erreicht NoRD eine Leistung, die mit bestehenden Modellen vergleichbar ist, obwohl es deutlich weniger Daten und keine Reasoning‑Annotations nutzt. Das Ergebnis unterstreicht das Potenzial von NoRD, die Entwicklung autonomer Systeme schneller und kostengünstiger zu gestalten.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?

Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Start

Zum KI-Archiv

Gehe von dieser Meldung in Themen, Analysen und weitere News, um ein belastbareres Gesamtbild aufzubauen.

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

🍪 Cookie-Einstellungen