Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx
Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende…
- Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitli…
- Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben verna…
- Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (…
Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben vernachlässigt werden.
Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (MLLM) effizient ausführt. Für reine Textmodelle erzielt vllm-mlx eine Durchsatzsteigerung von 21 % bis 87 % gegenüber dem beliebten llama.cpp, wobei die Modelle von Qwen3‑0.6B bis Nemotron‑30B abgedeckt werden. Durch kontinuierliches Batch‑Verfahren kann die Gesamtleistung bei 16 gleichzeitigen Anfragen um das 4,3‑fache erhöht werden.
Im multimodalen Bereich setzt vllm-mlx auf ein innovatives, inhaltsbasiertes Präfix‑Caching. Durch Content‑Hashing werden identische Bilder erkannt und die wiederholte Bild‑Kodierung vermieden – unabhängig vom Eingabeformat. Auf einem Apple M4 Max erreicht das System einen Text‑Durchsatz von bis zu 525 Tokens pro Sekunde und erzielt bei wiederholten Bildanfragen eine 28‑fach schnellere Ausführung, wodurch die Latenz von 21,7 s auf unter 1 s reduziert wird.
Für Videoanalysen mit bis zu 64 Frames liefert das Cache‑System einen Durchsatz‑Boost von 24,7‑fach. Die komplette Implementierung wird als Open‑Source‑Projekt veröffentlicht, um die effiziente Inferenz auf consumer‑Apple‑Hardware zu fördern und die Forschung sowie die Praxis im Bereich der multimodalen KI voranzutreiben.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Kontext ohne Glossar-Suche
Wenn du nach dieser Meldung weiterlernen willst
Von dieser Meldung direkt in Hub, Analyse und Nachbarthemen
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.
Dieses Thema taucht in denselben KI-Entwicklungen regelmaessig mit auf und hilft beim groesseren Bild.