MinPRO: Prefix-Importance-Ratio stabilisiert RL-Optimierung von LLMs
In der jüngsten Veröffentlichung auf arXiv wird gezeigt, dass die Optimierung von Sprachmodellen nach dem Training mit Verstärkungslernen (RL) stark von der Art der Wichtigkeitskorrektur abhängt. Traditionell wird ein t…