<p>LLM-Agenten zeigen beeindruckende Schritt-für-Schritt‑Logik bei kurzen Aufgaben, doch sobald die Planung mehrere Schritte vorausgehen muss, geraten sie in eine myope Haltung. In einer neuen Analyse wird erklärt, warum diese „greedy“ Vorgehensweise bei langen Entscheidungswegen versagt: Jede Aktion wird nur im Blick des nächsten Schritts bewertet, ohne die verzögerten Konsequenzen zu berücksichtigen.</p>

arXiv – cs.AI Original ≈1 Min. Lesezeit
Anzeige

Um dieses Problem zu lösen, wurde FLARE – Future‑aware Lookahead with Reward Estimation – entwickelt. FLARE integriert expliziten Lookahead, Wertpropagation und begrenzte Verpflichtungen in ein einziges Modell. Dadurch können spätere Ergebnisse frühzeitig in die Entscheidungsfindung einfließen und die Agenten bleiben flexibel, statt sich zu früh festzulegen.

In einer Reihe von Benchmarks, Agenten‑Frameworks und mit unterschiedlichen LLM‑Backbones zeigte FLARE konsequente Verbesserungen. Besonders auffällig war, dass ein LLaMA‑8B‑Modell mit FLARE die Leistung von GPT‑4o übertraf, wenn es um reine Schritt‑für‑Schritt‑Logik ging. Die Ergebnisse unterstreichen klar den Unterschied zwischen bloßer Logik und echter Planung.

Ähnliche Artikel