FastAPI vs. Triton: Benchmark für sichere, skalierbare KI-Infereenzen

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

In einer aktuellen Studie wurden zwei führende Ansätze zur Bereitstellung von KI-Modellen im Gesundheitswesen auf Kubernetes verglichen: die leichtgewichtige, Python-basierte REST-API FastAPI und der hochleistungsfähige NVIDIA Triton Inference Server. Beide Systeme wurden mit einem DistilBERT-Modell zur Sentiment‑Analyse betrieben, um Median‑ (p50) und Tail‑ (p95) Latenzen sowie die Durchsatzrate unter kontrollierten Bedingungen zu messen.

FastAPI zeigte sich besonders effizient bei Einzelanfragen, erzielte eine p50‑Latenz von lediglich 22 ms und bot damit eine niedrige Overhead‑Zeit für Echtzeit‑Entscheidungsunterstützung. Triton hingegen profitierte von dynamischem Batch‑Processing und erreichte einen Durchsatz von 780 Anfragen pro Sekunde auf einer einzelnen NVIDIA T4 GPU – nahezu doppelt so hoch wie bei FastAPI.

Die Autoren stellten zudem ein hybrides Architekturmodell vor, bei dem FastAPI als sicherer Gateway für die De‑Identifikation von Gesundheitsdaten fungiert, während Triton die eigentliche Inferenz übernimmt. Dieser Ansatz kombiniert die Sicherheitsstärke von FastAPI mit der Skalierbarkeit von Triton und wird als Best‑Practice für unternehmenseigene klinische KI‑Lösungen empfohlen.

Ähnliche Artikel