GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis
In der Welt des automatischen Theorembeweisens (ATP) hat sich Reinforcement Learning als Schlüsseltechnologie etabliert. Der aktuelle Standard, der Group Relative Policy Optimization (GRPO) Algorithmus, stößt jedoch auf…