LLM-basiertes PROF-Framework optimiert Belohnungsfunktionen für Offline-Imitation
Ein neues Forschungsframework namens PROF nutzt große Sprachmodelle, um aus natürlichen Sprachbeschreibungen und einer einzigen Expertendemonstration ausführbare Belohnungsfunktionen zu generieren und zu verbessern. Dad…