RouteMoA: Dynamisches Routing senkt Kosten und Latenz bei Mixture-of-Agents

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Die neue Methode RouteMoA revolutioniert die Art und Weise, wie große Sprachmodelle (LLMs) in einem Mixture-of-Agents (MoA)-Framework zusammenarbeiten. Durch ein dynamisches Routing‑System werden nur die vielversprechendsten Modelle für die eigentliche Inferenz ausgewählt, wodurch die Gesamtkosten und die Latenz drastisch reduziert werden.

Im Gegensatz zu bisherigen Ansätzen, die alle Modelle zunächst vollständig ausführen und anschließend von LLM‑Richtern bewerten, nutzt RouteMoA einen leichten Scorer, der anhand der Anfrage eine grobe Leistungsabschätzung vornimmt. Auf diese Weise wird die Kandidatenliste ohne jegliche Inferenz auf ein hochpotenzielles Subset eingrenzt.

Ein anschließendes Gremium aus Richtern verfeinert die Scores durch leichte Selbst‑ und Kreuzbewertung der bereits vorhandenen Modelloutputs. Diese Nachkorrektur erfolgt ohne zusätzliche Inferenz und sorgt für eine präzise Bewertung. Abschließend wählt ein Ranking‑Mechanismus die Modelle aus, wobei Leistung, Kosten und Latenz ausgewogen berücksichtigt werden.

In Tests über verschiedene Aufgaben und Modellgrößen hinweg übertrifft RouteMoA das klassische MoA deutlich. Besonders bei großen Modellpools konnten die Kosten um 89,8 % und die Latenz um 63,6 % gesenkt werden – ein bedeutender Fortschritt für effiziente KI‑Anwendungen.

Ähnliche Artikel