NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten
In der Forschung zu großen Sprachmodellen (LLMs) gewinnen Agenten, die über lange Zeiträume mit ihrer Umgebung interagieren, immer mehr an Bedeutung. Sie ermöglichen komplexe Aufgaben wie Tool‑Nutzung, Web‑Surfen oder Dialoge mit Menschen. Traditionell werden solche Agenten mit Policy‑Gradient‑Methoden trainiert, die auf sparsamen Belohnungen basieren. Bei langen Aufgaben mit wenigen Rückmeldungen führt das zu stark verrauschten Lernsignalen, instabilem Training und enorm hohem Datenverbrauch.