Neuer Algorithmus kombiniert Belohnungen und Präferenzen für stabileres Reinforcement Learning
Ein brandneuer Reinforcement‑Learning‑Algorithmus namens Dual‑Feedback Actor (DFA) vereint klassische Belohnungen und Präferenzen in einer einzigen, eleganten Update‑Regel. Durch die direkte Nutzung der Log‑Wahrscheinli…