Multistep-Quasimetric-Lernen: Skalierbares zielorientiertes RL
Ein neuer Ansatz im Bereich des zielorientierten Reinforcement Learning (Goal‑Conditioned RL) hat die Grenzen des Lernens über lange Zeiträume neu definiert. Durch die Kombination von temporalen Differenzmethoden, die l…