Forschung
MAVRL: Belohnungsfunktionen aus mehreren Feedbacktypen lernen – variationaler Inferenz
Die neue Methode MAVRL (Multi‑Feedback Reward Learning) löst ein langjähriges Problem in der Robotik und im maschinellen Lernen: Wie kann m…
arXiv – cs.LG