LLM-gesteuerte GuidedSAC beschleunigt Actor-Critic bei kontinuierlicher Steuerung
Ein neuer Reinforcement‑Learning‑Algorithmus namens GuidedSAC kombiniert die Soft Actor‑Critic (SAC) Methode mit großen Sprachmodellen (LLMs), um die Erkundung in riesigen Zustands‑ und Aktionsräumen effizienter zu gest…