PRL: Belohnung steigert LLMs' Denkfähigkeit und erweitert Grenzen
Die Weiterentwicklung der Denkfähigkeiten großer Sprachmodelle (LLMs) steht seit langem im Fokus der Forschung. Traditionell werden dabei nur Ergebnisbelohnungen auf Trajektorienebene eingesetzt, wodurch die feinkörnige Steuerung des Denkprozesses fehlt. Darüber hinaus erfordern viele bestehende Trainingsansätze zusätzliche, zeitaufwändige Schritte wie Monte‑Carlo‑Tree‑Search oder das Training separater Belohnungsmodelle, was die Effizienz stark beeinträchtigt.
In der vorliegenden Arbeit wird das Konzept des Process Reward Learning (PRL) vorgestellt. PRL zerlegt das entropie‑regularisierte Reinforcement‑Learning‑Ziel in Zwischenschritte und definiert dafür rigorose Prozessbelohnungen. Theoretisch entspricht PRL der Maximierung von Belohnungen plus einer KL‑Divergenz‑Strafe zwischen dem Politikmodell und einem Referenzmodell. Durch die Umwandlung von Ergebnisbelohnungen in Prozess‑Supervisionssignale wird die Exploration während der RL‑Optimierung gezielter gelenkt.
Experimentelle Ergebnisse zeigen, dass PRL die durchschnittliche Leistung von LLMs in Bezug auf das „average @ n“-Kriterium deutlich verbessert und gleichzeitig die „pass @ n“-Metrik steigert. Damit wird nicht nur die durchschnittliche Denkfähigkeit erhöht, sondern auch die Grenzen des Denkens erweitert. Umfangreiche Tests bestätigen die Wirksamkeit von PRL und lassen darauf schließen, dass die Methode auf verschiedene Modelle und Aufgaben übertragbar ist.
Zusammenfassend demonstriert PRL, dass ein fein abgestimmtes Prozess‑Belohnungssystem die Effizienz und Effektivität von LLM‑Trainingsprozessen signifikant steigern kann. Diese Erkenntnisse eröffnen neue Perspektiven für die Entwicklung leistungsfähigerer, besser erklärbarer Sprachmodelle.