Forschung
Stackelberg-Spiel optimiert Reward-Shaping für LLM-Alignment
Neues Forschungsergebnis aus dem arXiv-Preprint Reward Shaping for Inference-Time Alignment: A Stackelberg Game Perspective zeigt, wie man…
arXiv – cs.LG