CoPRIS: Schnellere und stabilere RL-Optimierung durch parallele Rollouts
Reinforcement‑Learning‑Post‑Training (RL‑PT) hat sich zu einem beliebten Ansatz entwickelt, um die Leistungsfähigkeit großer Sprachmodelle zu steigern. Die meisten bestehenden RL‑Systeme arbeiten jedoch synchron: Das Training wartet, bis ein kompletter Batch von Rollouts abgeschlossen ist. Bei sehr langen Trajektorien kann dieser Ansatz zu erheblichen Ineffizienzen führen, da die gesamte Pipeline blockiert wird und viele GPUs untätig bleiben.