LLM‑Conductor: KI-Agenten orchestrieren sich selbst für Rekordleistungen

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

In einer bahnbrechenden Veröffentlichung stellt ein neues Conductor-Modell vor, das mithilfe von Reinforcement Learning selbstständig effektive Koordinationsstrategien für große Sprachmodelle (LLMs) entwickelt. Der Conductor lernt, gezielte Kommunikationsnetzwerke zwischen Agenten aufzubauen und gleichzeitig präzise Prompt‑Anweisungen zu generieren, um die individuellen Stärken der LLMs optimal zu nutzen.

Ein 7‑Billionen‑Parameter‑Conductor übertrifft sämtliche einzelne Arbeitsagenten deutlich und erzielt bislang beständige Ergebnisse bei anspruchsvollen Logik‑Tests wie LiveCodeBench und GPQA. Durch das Training mit zufälligen Agentenpools passt sich der Conductor flexibel an beliebige Kombinationen von Open‑ und Closed‑Source‑Modellen an und erfüllt damit jede Nutzeranforderung.

Besonders innovativ ist die Möglichkeit, den Conductor selbst als Agent einzusetzen, was rekursive Topologien ermöglicht und eine dynamische Skalierung während der Laufzeit erlaubt. Diese Arbeit markiert einen frühen Meilenstein, der zeigt, dass durch reine End‑to‑End‑Belohnungsoptimierung koordinierende Strategien in Sprachmodellen entstehen können.

Ähnliche Artikel