R$^2$PO trennt Trainingspfade von Inferenzantworten und steigert LLM-Logik
In der Forschung zur Verbesserung der Logikfähigkeit großer Sprachmodelle (LLM) hat sich das Reinforcement Learning (RL) als zentrales Werkzeug etabliert. Ein Problem dabei ist jedoch, dass bisherige Ansätze eine einzig…