HeRL: Hindsight Experience Guided RL verbessert LLM-Exploration
In einer bahnbrechenden Veröffentlichung auf arXiv (2603.20046v1) wird ein neues Verfahren namens HeRL vorgestellt, das die Exploration von Large Language Models (LLMs) im Reinforcement Learning (RL) drastisch verbesser…