Forschung
NLAC: LLM-Agenten lernen effizienter ohne On-Policy-Gradienten
In der Forschung zu großen Sprachmodellen (LLMs) gewinnen Agenten, die über lange Zeiträume mit ihrer Umgebung interagieren, immer mehr an…
arXiv – cs.LG