Reinforcement Learning ohne TD: Divide-and-Conquer als neue Skalierbarkeit
Ein neues Reinforcement‑Learning‑Verfahren setzt auf das Prinzip „Teile und Herrsche“ und verzichtet komplett auf die klassische Temporal‑Difference‑Lernmethode. Dadurch kann es große, langfristige Aufgaben effizienter bearbeiten als herkömmliche TD‑Algorithmen.