Amazon setzt mit Trainium-Chips und vLLM Rufus auf Multi-Node-Inference

AWS – Machine Learning Blog Original ≈1 Min. Lesezeit
Anzeige

Amazon hat eine neue Multi-Node-Inferrer-Lösung für seinen generativen AI‑Shopping‑Assistenten Rufus entwickelt. Dabei kommen die eigenen Trainium‑Chips und die Open‑Source‑Bibliothek vLLM zum Einsatz, um große Sprachmodelle effizient und skalierbar bereitzustellen. Die Architektur kombiniert ein Leader‑Follower‑Orchestrierungsmodell, hybride Parallelisierungstechniken und eine Abstraktionsschicht für Multi‑Node‑Inference, die auf Amazon ECS läuft. So können Modelle über mehrere Knoten hinweg verteilt werden, während gleichzeitig hohe Leistung und Zuverlässigkeit gewährleistet bleiben.

Ähnliche Artikel