Golden Goose: Trick zur Erzeugung unbegrenzter RLVR-Aufgaben aus Internettext
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprachmodellen zu ermöglichen. Ein entscheidendes Hindernis ist jedoch die begrenzte M…