GDEPO: Neue Methode steigert Reinforcement-Learning beim automatischen Theorembeweis
In der Welt des automatischen Theorembeweisens (ATP) hat sich Reinforcement Learning als Schlüsseltechnologie etabliert. Der aktuelle Standard, der Group Relative Policy Optimization (GRPO) Algorithmus, stößt jedoch auf zwei gravierende Hindernisse: Erstens kann die Schätzung der relativen Belohnung bei zusammengesetzten Rewards im Widerspruch zur binären Rückmeldung des formalen Verifiers stehen. Zweitens führt die statische Stichprobenstrategie dazu, dass komplette Datenbatches verworfen werden, wenn keine gültige Beweisschrittfolge gefunden wird, was zu erheblichem Datenverlust führt.