Forschung
Speicherbasierte Vorteilshaltung für LLM-gesteuertes Reinforcement Learning
In Lernumgebungen mit spärlichen oder verzögerten Belohnungen erfordert Reinforcement Learning (RL) oft eine enorme Anzahl von Interaktione…
arXiv – cs.LG