NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten
In der Forschung zu großen Sprachmodellen (LLMs) gewinnen Agenten, die über lange Zeiträume mit ihrer Umgebung interagieren, immer mehr an Bedeutung. Sie ermöglichen komplexe Aufgaben wie Tool‑Nutzung, Web‑Surfen oder D…