RPO: Schnellere Verstärkungsoptimierung durch Teil‑Reasoning
In der Forschung zu großen Sprachmodellen wurde ein neues Verfahren namens Reinforcement Fine‑Tuning with Partial Reasoning Optimization (RPO) vorgestellt, das die Trainingszeit drastisch senkt. Traditionelle Verstärkungsoptimierungen erzeugen bei jedem Schritt einen vollständigen Beweisweg, was bei der Rollout‑Phase enorme Rechenkosten verursacht.
RPO löst dieses Problem, indem es das Modell nur mit Suffixen des Beweiswegs trainiert und dabei auf einen Erfahrungsspeicher zurückgreift. Dadurch reduziert sich die Token‑Generierung während des Rollouts um etwa 95 %, was die theoretische Zeitbelastung erheblich verringert.
Die Ergebnisse sind beeindruckend: Für ein 1,5 Milliarden‑Parameter‑Modell wird die Trainingszeit um 90 % reduziert, bei einem 7 Milliarden‑Parameter‑Modell um 72 %. Gleichzeitig lässt sich RPO nahtlos in etablierte Algorithmen wie GRPO und DAPO integrieren, sodass diese ebenfalls beschleunigt werden können, ohne die Leistungsfähigkeit zu beeinträchtigen.
Der komplette Code ist frei verfügbar unter https://github.com/yhz5613813/RPO und bietet Forschern und Entwicklern eine leistungsstarke, plug‑and‑play-Option für effizienteres Verstärkungslernen.