Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx

Kernaussagen

Das nimmst du aus dem Beitrag mit

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitli…
Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben verna…
Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (…

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben vernachlässigt werden.

Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (MLLM) effizient ausführt. Für reine Textmodelle erzielt vllm-mlx eine Durchsatzsteigerung von 21 % bis 87 % gegenüber dem beliebten llama.cpp, wobei die Modelle von Qwen3‑0.6B bis Nemotron‑30B abgedeckt werden. Durch kontinuierliches Batch‑Verfahren kann die Gesamtleistung bei 16 gleichzeitigen Anfragen um das 4,3‑fache erhöht werden.

Im multimodalen Bereich setzt vllm-mlx auf ein innovatives, inhaltsbasiertes Präfix‑Caching. Durch Content‑Hashing werden identische Bilder erkannt und die wiederholte Bild‑Kodierung vermieden – unabhängig vom Eingabeformat. Auf einem Apple M4 Max erreicht das System einen Text‑Durchsatz von bis zu 525 Tokens pro Sekunde und erzielt bei wiederholten Bildanfragen eine 28‑fach schnellere Ausführung, wodurch die Latenz von 21,7 s auf unter 1 s reduziert wird.

Für Videoanalysen mit bis zu 64 Frames liefert das Cache‑System einen Durchsatz‑Boost von 24,7‑fach. Die komplette Implementierung wird als Open‑Source‑Projekt veröffentlicht, um die effiziente Inferenz auf consumer‑Apple‑Hardware zu fördern und die Forschung sowie die Praxis im Bereich der multimodalen KI voranzutreiben.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?

Ist das eher Signal, Produkt oder nur kurzfristiger Hype?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

Apple Silicon

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

MLX

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

vllm-mlx

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Themen-Hub

Apple Silicon systematisch verfolgen

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Archiv

Weitere Beispiele zu Apple Silicon

Nutze das Archiv, um Muster, Wiederholungen und Trendlinien innerhalb des Themas zu sehen.

Im Themen-Cluster weiter

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Themen-Hub

Apple Silicon

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

1 Signale in 7 Tagen • 2 Artikel im Hub

Hub oeffnen →

Nachbar-Hub

MLX

Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.

2 gemeinsame Signale

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen

Aehnliche Entwicklungen zum Weiterlesen

🍪 Cookie-Einstellungen