Neues RL-Modell liefert erklärbare Antworten: Query‑Specific Neural Modules
In der klassischen Verstärkungslern‑Forschung geht es meist darum, eine Politik zu lernen, die Aktionen auswählt, um die Belohnung zu maximieren. Das neue Verfahren, Query Conditioned Deterministic Inference Networks (Q…