Verbessern Sie LLM‑Logik: Präzise Fehlerstrafe mit Prozess‑überwachtem RL
Reinforcement Learning (RL) hat sich als kraftvolles Werkzeug zur Steigerung der Denkfähigkeit großer Sprachmodelle (LLMs) etabliert. Traditionell setzen die meisten RL‑Ansätze jedoch auf spärliche Ergebnis‑Belohnungen, die korrekte Zwischenschritte in teilweise erfolgreichen Lösungen nicht würdigen. Prozess‑Reward‑Modelle (PRMs) bieten eine fein granularere Schritt‑für‑Schritt‑Überwachung, sind aber häufig verrauscht und schwer zu bewerten. Aus diesem Grund konzentrieren sich aktuelle PRM‑Benchmarks darauf, den ersten falschen Schritt in einem Denkpfad zu erkennen – ein Ziel, das jedoch nicht mit der üblichen RL‑Anwendung übereinstimmt, bei der PRM‑Scores als rohe Belohnungen maximiert werden.