Forschung arXiv – cs.LG

Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitli…
  • Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben verna…
  • Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (…

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben vernachlässigt werden.

Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (MLLM) effizient ausführt. Für reine Textmodelle erzielt vllm-mlx eine Durchsatzsteigerung von 21 % bis 87 % gegenüber dem beliebten llama.cpp, wobei die Modelle von Qwen3‑0.6B bis Nemotron‑30B abgedeckt werden. Durch kontinuierliches Batch‑Verfahren kann die Gesamtleistung bei 16 gleichzeitigen Anfragen um das 4,3‑fache erhöht werden.

Im multimodalen Bereich setzt vllm-mlx auf ein innovatives, inhaltsbasiertes Präfix‑Caching. Durch Content‑Hashing werden identische Bilder erkannt und die wiederholte Bild‑Kodierung vermieden – unabhängig vom Eingabeformat. Auf einem Apple M4 Max erreicht das System einen Text‑Durchsatz von bis zu 525 Tokens pro Sekunde und erzielt bei wiederholten Bildanfragen eine 28‑fach schnellere Ausführung, wodurch die Latenz von 21,7 s auf unter 1 s reduziert wird.

Für Videoanalysen mit bis zu 64 Frames liefert das Cache‑System einen Durchsatz‑Boost von 24,7‑fach. Die komplette Implementierung wird als Open‑Source‑Projekt veröffentlicht, um die effiziente Inferenz auf consumer‑Apple‑Hardware zu fördern und die Forschung sowie die Praxis im Bereich der multimodalen KI voranzutreiben.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Apple Silicon
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
MLX
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
vllm-mlx
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen