Forschung
LLM-basiertes PROF-Framework optimiert Belohnungsfunktionen für Offline-Imitation
Ein neues Forschungsframework namens PROF nutzt große Sprachmodelle, um aus natürlichen Sprachbeschreibungen und einer einzigen Expertendem…
arXiv – cs.LG