Forschung
<p>LLM-Agenten zeigen beeindruckende Schritt-für-Schritt‑Logik bei kurzen Aufgaben, doch sobald die Planung mehrere Schritte vorausgehen muss, geraten sie in eine myope Haltung. In einer neuen Analyse wird erklärt, warum diese „greedy“ Vorgehensweise bei langen Entscheidungswegen versagt: Jede Aktion wird nur im Blick des nächsten Schritts bewertet, ohne die verzögerten Konsequenzen zu berücksichtigen.</p>
Um dieses Problem zu lösen, wurde FLARE – Future‑aware Lookahead with Reward Estimation – entwickelt. FLARE integriert expliziten Lookahead…
arXiv – cs.AI