DuSAR: Dual-Strategie-Agent ohne Demonstrationen erzielt neue Rekorde bei LLM-Aufgaben

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Ein neues Forschungsprojekt namens DuSAR (Dual-Strategy Agent with Reflecting) hat die Leistungsfähigkeit von großen Sprachmodellen (LLMs) in komplexen Entscheidungsaufgaben deutlich gesteigert. Im Gegensatz zu bisherigen Ansätzen, die stark auf externe Demonstrationen oder aufwändige Retrieval-Methoden angewiesen sind, nutzt DuSAR einen einzigen, eingefrorenen LLM, um gleichzeitig einen übergeordneten, ganzheitlichen Plan und eine kontextbasierte lokale Politik zu entwickeln.

Die beiden Strategien arbeiten über einen leichten Reflexionsmechanismus zusammen. Der Agent bewertet kontinuierlich seinen Fortschritt anhand eines Strategy Fitness Scores und passt den globalen Plan an, wenn er feststeckt, oder verfeinert ihn, sobald er signifikante Fortschritte erzielt. Dieses Vorgehen ahmt menschliches Metakognitives Verhalten nach und sorgt für eine dynamische, co-adaptive Entscheidungsfindung.

In den Tests auf den Benchmark-Datensätzen ALFWorld und Mind2Web erzielte DuSAR mit Open-Source-Modellen (7 B–70 B Parameter) beeindruckende Ergebnisse: 37,1 % Erfolgsrate bei ALFWorld (Llama3.1‑70B) – mehr als das Dreifache des bisherigen Bestwerts – und 4,02 % bei Mind2Web, ebenfalls mehr als das Doppelte der stärksten Basislinie. Gleichzeitig reduziert DuSAR die Token-Verbrauch pro Schritt um 3 bis 9‑Fach, ohne die Leistung zu beeinträchtigen.

Abschließende Ablationsstudien zeigen, dass die Koordination beider Strategien entscheidend ist, und optionale Integration von Experten-Demonstrationen kann die Ergebnisse weiter verbessern. DuSAR demonstriert damit eine flexible und kompatible Architektur, die sowohl ohne externe Hilfestellungen als auch mit zusätzlichem Wissen hervorragende Leistungen erbringt.

Ähnliche Artikel