Hindsight Credit Assignment verbessert LLM-Agenten bei langen Aufgaben
Forscher haben ein neues Verfahren namens HCAPO vorgestellt, das große Sprachmodelle (LLM) dabei unterstützt, bei komplexen, mehrstufigen Aufgaben besser zu lernen. Durch die Nutzung des Modells selbst als „nachträglich…