AgentSelect: Benchmark für narrative Agentenempfehlungen

LLM‑Agenten werden zunehmend zum praktischen Interface für die Automatisierung von Aufgaben. Trotz dieser raschen Verbreitung fehlt bislang ein systematischer Ansatz, um aus der wachsenden Zahl von Deployments die passende Konfiguration auszuwählen. Bestehende Leaderboards und Benchmarks bewerten einzelne Komponenten isoliert und sind über Aufgaben, Metriken und Kandidatenpools hinweg fragmentiert.

Mit AgentSelect wird diese Lücke geschlossen. Das neue Benchmark‑Framework wandelt die Agentenauswahl in eine narrative Query‑to‑Agent‑Empfehlung um, die auf Fähigkeitprofilen basiert. Dabei werden heterogene Evaluationsdaten aus über 40 Quellen – von reinen LLM‑Modellen über Toolkits bis hin zu zusammengesetzten Agenten – in ein einheitliches, positiv orientiertes Interaktionsdatenset umgewandelt.

AgentSelect umfasst 111.179 Anfragen, 107.721 deploybare Agenten und 251.103 Interaktionsaufzeichnungen. Die Analyse zeigt einen Paradigmenwechsel von dichten Head‑Reuse‑Modellen zu einer langen Schwanz‑Verteilung mit fast ein‑maliger Supervision. In diesem Umfeld verlieren Popularitäts‑basierte CF‑ und GNN‑Methoden an Stabilität, während die Fähigkeit, Inhalte anhand von Kapazitätsprofilen abzugleichen, entscheidend wird.

Besonders vielversprechend sind die synthetisch erzeugten, zusammengesetzten Interaktionen (Part III). Diese lassen sich lernen, erzeugen kapabilitätssensitives Verhalten bei kontrollierten Gegenfaktik‑Bearbeitungen und erhöhen die Abdeckung realistischer Zusammensetzungen. Modelle, die auf AgentSelect trainiert wurden, übertragen sich erfolgreich auf den öffentlichen Agent‑Marktplatz MuleRun und erzielen konsistente Verbesserungen auf einem bislang unbekannten Katalog.

Insgesamt stellt AgentSelect das erste einheitliche Benchmark‑System für die End‑to‑End‑Empfehlung von Agenten dar und eröffnet damit neue Möglichkeiten für Forschung und Praxis im Bereich der intelligenten Automatisierung.

Ähnliche Artikel

🍪 Cookie-Einstellungen