AIRL‑S vereint RL und Such‑basierte TTS – neue Methode verbessert Leistung um 9 %

arXiv – cs.LG Original ≈2 Min. Lesezeit
Anzeige

Die Optimierung von Test‑Time‑Scaling‑Modellen (TTS) für große Sprachmodelle (LLMs) hat sich bislang in zwei stark getrennte Ansätze aufgespalten: Reinforcement‑Learning‑Methoden, die mit spärlichen, ergebnisbasierten Belohnungen arbeiten, und suchbasierte Techniken, die auf statischen Prozess‑Reward‑Modellen (PRMs) beruhen. Beide Ansätze haben jedoch gravierende Schwächen – RL leidet unter Instabilität und geringer Stichproben‑Effizienz, während suchbasierte Verfahren teure, manuell oder LLM‑generierte Labels benötigen und bei Verteilungssprüngen oft versagen.

In der vorliegenden Arbeit wird AIRL‑S vorgestellt, das erstmals die beiden Paradigmen zu einer einzigen, natürlichen Lösung zusammenführt. Der Schlüssel liegt in der Erkenntnis, dass die während des RL‑Trainings erlernte Belohnungsfunktion im Wesentlichen das ideale PRM für die nachfolgende Suche darstellt.

AIRL‑S kombiniert adversarial inverse reinforcement learning (AIRL) mit group relative policy optimization (GRPO), um ein dichtes, dynamisches PRM direkt aus korrekten Denkpfaden zu lernen. Dadurch entfällt die Notwendigkeit, Zwischenprozessdaten mit Labels zu versehen – ein großer Kosten- und Zeitfaktor wird damit eliminiert.

Im Inferenzmodus dient das erstellte PRM gleichzeitig als Kritiker für RL‑Rollouts und als Heuristik, die Suchverfahren effektiv steuert. Diese Dualität ermöglicht eine robuste Erweiterung von Argumentationsketten, reduziert das Risiko von Reward‑Hacking und verbessert die Generalisierung über verschiedene Aufgaben hinweg.

Experimentelle Ergebnisse auf acht unterschiedlichen Benchmarks – darunter Mathematik, wissenschaftliches Denken und Code‑Generierung – zeigen, dass die einheitliche Methode im Durchschnitt die Leistung um 9 % steigert und damit mit GPT‑4o konkurriert. In Kombination mit mehreren Suchalgorithmen übertrifft das PRM konsequent die bisherigen Ansätze.

Die Einführung von AIRL‑S markiert einen bedeutenden Fortschritt in der Entwicklung von TTS‑Modellen und eröffnet neue Perspektiven für die effiziente und robuste Optimierung großer Sprachmodelle.

Ähnliche Artikel