Effiziente LLM- und MLLM-Inferenz auf Apple Silicon mit vllm-mlx

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Mit der rasanten Verbreitung von Apple Silicon im Bereich des maschinellen Lernens wächst der Bedarf an leistungsstarken Inferenzlösungen, die die einzigartige einheitliche Speicherarchitektur optimal nutzen. Bestehende Werkzeuge wie PyTorch MPS bieten zwar native Optimierungen, konzentrieren sich jedoch meist ausschließlich auf Textmodelle, während multimodale Aufgaben vernachlässigt werden.

Hier kommt vllm-mlx ins Spiel – ein neues Framework, das auf der nativen MLX-Engine von Apple basiert und sowohl große Sprachmodelle (LLM) als auch multimodale Modelle (MLLM) effizient ausführt. Für reine Textmodelle erzielt vllm-mlx eine Durchsatzsteigerung von 21 % bis 87 % gegenüber dem beliebten llama.cpp, wobei die Modelle von Qwen3‑0.6B bis Nemotron‑30B abgedeckt werden. Durch kontinuierliches Batch‑Verfahren kann die Gesamtleistung bei 16 gleichzeitigen Anfragen um das 4,3‑fache erhöht werden.

Im multimodalen Bereich setzt vllm-mlx auf ein innovatives, inhaltsbasiertes Präfix‑Caching. Durch Content‑Hashing werden identische Bilder erkannt und die wiederholte Bild‑Kodierung vermieden – unabhängig vom Eingabeformat. Auf einem Apple M4 Max erreicht das System einen Text‑Durchsatz von bis zu 525 Tokens pro Sekunde und erzielt bei wiederholten Bildanfragen eine 28‑fach schnellere Ausführung, wodurch die Latenz von 21,7 s auf unter 1 s reduziert wird.

Für Videoanalysen mit bis zu 64 Frames liefert das Cache‑System einen Durchsatz‑Boost von 24,7‑fach. Die komplette Implementierung wird als Open‑Source‑Projekt veröffentlicht, um die effiziente Inferenz auf consumer‑Apple‑Hardware zu fördern und die Forschung sowie die Praxis im Bereich der multimodalen KI voranzutreiben.

Ähnliche Artikel