Forschung arXiv – cs.LG

Hardware‑Co‑Design: Neue Skalierungsformeln für On‑Device LLMs

Vision‑Language‑Action‑Modelle (VLAs) sind inzwischen ein zentrales Element der Physical AI und finden in autonomen Fahrzeugen, Robotern und intelligenten Räumen breite Anwendung. In diesen ressourcenbeschränkten, on‑de…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Vision‑Language‑Action‑Modelle (VLAs) sind inzwischen ein zentrales Element der Physical AI und finden in autonomen Fahrzeugen, Robotern und intelligenten Räumen breite…
  • In diesen ressourcenbeschränkten, on‑device‑Umgebungen ist die Wahl des passenden großen Sprachmodells (LLM) entscheidend, denn die Modelle müssen Genauigkeit, Inferenz‑…
  • Um diese Herausforderung zu meistern, setzt die neue Studie auf einen hardware‑software‑Co‑Design‑Ansatz.

Vision‑Language‑Action‑Modelle (VLAs) sind inzwischen ein zentrales Element der Physical AI und finden in autonomen Fahrzeugen, Robotern und intelligenten Räumen breite Anwendung. In diesen ressourcenbeschränkten, on‑device‑Umgebungen ist die Wahl des passenden großen Sprachmodells (LLM) entscheidend, denn die Modelle müssen Genauigkeit, Inferenz‑Latenz und Hardware‑Effizienz gleichzeitig erfüllen.

Um diese Herausforderung zu meistern, setzt die neue Studie auf einen hardware‑software‑Co‑Design‑Ansatz. Dabei wird die Trainingsverlustfunktion explizit als Abhängigkeit von architektonischen Hyperparametern modelliert und die Inferenzlatenz mittels Roofline‑Modellierung charakterisiert. Auf der NVIDIA Jetson Orin wurden 1 942 Kandidatenarchitekturen getestet, wobei 170 Modelle mit jeweils 10 Mrd. Tokens trainiert wurden, um eine Skalierungsformel zu bestimmen, die Architektur und Trainingsverlust verknüpft.

Durch die Kombination dieser Skalierungsformel mit der Latenzmodellierung entsteht eine direkte Genauigkeit‑Latenz‑Korrespondenz, die die Pareto‑Grenze für hardware‑co‑designed LLMs aufzeigt. Die Architektur­suche wird als gemeinsames Optimierungsproblem über Präzision und Performance formuliert, wodurch praktikable Design­bereiche innerhalb industrieller Hardware‑ und Budgetgrenzen abgeleitet werden. Dieser Ansatz verkürzt die Auswahlzeit von Monaten auf wenige Tage.

Bei gleicher Latenz wie bei Qwen2.5‑0.5B auf dem Zielgerät erreicht die co‑designed Architektur einen um 19,42 % niedrigeren Perplexitätswert auf WikiText, was die Leistungsfähigkeit von on‑device LLMs deutlich steigert. Diese Methode ebnet den Weg für schnellere und effizientere KI‑Deployments in ressourcenbeschränkten Systemen.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.