Golden Goose: Trick zur Erzeugung unbegrenzter RLVR-Aufgaben aus Internettext
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprachmodellen zu ermöglichen. Ein entscheidendes Hindernis ist jedoch die begrenzte Menge an verifizierbaren Trainingsdaten, wodurch sich die Leistungssteigerung von Modellen mit zunehmender Trainingsdauer zunehmend abschwächt.
Die neue Methode „Golden Goose“ löst dieses Problem, indem sie aus nicht verifizierbarem Internettext unbegrenzt viele RLVR-Aufgaben generiert. Dabei wird ein Text zunächst in ein Multiple‑Choice‑Frage‑Antwort‑Format überführt: Ein Sprachmodell maskiert die wesentlichen Schlüsselschritte der Argumentation und erzeugt anschließend eine Auswahl plausibler Ablenkungsantworten. Auf diese Weise können reichhaltige, aber bislang ungenutzte Quellen wie wissenschaftliche Lehrbücher in die RLVR‑Datensätze einfließen.
Durch die Anwendung von Golden Goose entstand das umfangreiche Dataset GooseReason‑0.7M, das über 0,7 Million Aufgaben aus Mathematik, Programmierung und allgemeinen wissenschaftlichen Bereichen umfasst. Dieses neue Material hat bewiesen, dass Modelle, die zuvor auf bestehenden RLVR‑Daten gesättigt waren, wieder signifikante Fortschritte erzielen können.
In Experimenten mit 1,5 B- und 4 B‑Instruct‑Modellen zeigte GooseReason neue Spitzenleistungen auf 15 unterschiedlichen Benchmarks. Die kontinuierliche RL‑Schulung mit dem erweiterten Datensatz führte zu stabilen, nachhaltigen Verbesserungen, die bisher unerreichte Ergebnisse erzielten.
Ein besonders eindrucksvolles Anwendungsbeispiel ist die Cybersecurity‑Domäne. Hier wurden aus rohen FineWeb‑Scrapes RLVR‑Aufgaben generiert, die das Modell Qwen3‑4B‑Instruct auf dem neuen GooseReason‑Cyber‑Set trainierten. Das Ergebnis war ein neuer Branchen‑Best‑Score, der sogar einen 7 B‑Modell mit umfangreichem domänenspezifischem Pre‑Training übertraf.
Golden Goose demonstriert, dass unbegrenzte, qualitativ hochwertige RLVR‑Aufgaben aus unverifizierbarem Internettext erschaffen werden können. Diese Innovation ebnet den Weg für leistungsfähigere Sprachmodelle, die komplexes logisches Denken in einer Vielzahl von Fachgebieten meistern.