A-3PO: Schnellere asynchrone LLM-Trainings durch Approximation

arXiv – cs.LG Original ≈1 Min. Lesezeit
Anzeige

Eine neue Veröffentlichung auf arXiv (2512.06547v1) stellt A-3PO vor, eine Methode, die asynchrones Training großer Sprachmodelle deutlich beschleunigt.

Traditionelle Reinforcement‑Learning‑Algorithmen wie PPO oder GRPO nutzen gekoppelte Verluste, die bei hoher Datenstalenheit instabil werden. Durch die Einführung einer proximalen Policy werden die Off‑Policy‑Korrekturen von den Policy‑Updates getrennt, was die Lernstabilität verbessert.

Der Nachteil der proximalen Policy ist jedoch ein zusätzlicher Forward Pass pro Trainingsschritt, der bei großen Modellen zu einem Engpass führt. Die Autoren zeigen, dass die prox. Policy lediglich als Anker für die Vertrauensregion zwischen Verhalten‑ und Zielpolicy dient und daher durch einfache Interpolation ohne explizite Berechnung approximiert werden kann. Diese Technik nennen sie A-3PO (APproximated Proximal Policy Optimization).

Durch die Eliminierung des Overheads reduziert A-3PO die Trainingszeit um 18 % und liefert gleichzeitig vergleichbare Leistungen. Der Code sowie ein sofort einsatzbereites Beispiel sind auf GitHub verfügbar: https://github.com/inclusionAI/AReaL/blob/main/docs/algorithms/prox_approx.md.

Ähnliche Artikel