Forschung arXiv – cs.AI

Golden Goose: Trick zur Erzeugung unbegrenzter RLVR-Aufgaben aus Internettext

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprachmodellen zu ermöglichen. Ein entscheidendes Hindernis ist jedoch die begrenzte M…

≈2 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprachmodellen zu ermöglichen.
  • Ein entscheidendes Hindernis ist jedoch die begrenzte Menge an verifizierbaren Trainingsdaten, wodurch sich die Leistungssteigerung von Modellen mit zunehmender Training…
  • Die neue Methode „Golden Goose“ löst dieses Problem, indem sie aus nicht verifizierbarem Internettext unbegrenzt viele RLVR-Aufgaben generiert.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) gilt als Schlüsseltechnologie, um komplexes logisches Denken in großen Sprachmodellen zu ermöglichen. Ein entscheidendes Hindernis ist jedoch die begrenzte Menge an verifizierbaren Trainingsdaten, wodurch sich die Leistungssteigerung von Modellen mit zunehmender Trainingsdauer zunehmend abschwächt.

Die neue Methode „Golden Goose“ löst dieses Problem, indem sie aus nicht verifizierbarem Internettext unbegrenzt viele RLVR-Aufgaben generiert. Dabei wird ein Text zunächst in ein Multiple‑Choice‑Frage‑Antwort‑Format überführt: Ein Sprachmodell maskiert die wesentlichen Schlüsselschritte der Argumentation und erzeugt anschließend eine Auswahl plausibler Ablenkungsantworten. Auf diese Weise können reichhaltige, aber bislang ungenutzte Quellen wie wissenschaftliche Lehrbücher in die RLVR‑Datensätze einfließen.

Durch die Anwendung von Golden Goose entstand das umfangreiche Dataset GooseReason‑0.7M, das über 0,7 Million Aufgaben aus Mathematik, Programmierung und allgemeinen wissenschaftlichen Bereichen umfasst. Dieses neue Material hat bewiesen, dass Modelle, die zuvor auf bestehenden RLVR‑Daten gesättigt waren, wieder signifikante Fortschritte erzielen können.

In Experimenten mit 1,5 B- und 4 B‑Instruct‑Modellen zeigte GooseReason neue Spitzenleistungen auf 15 unterschiedlichen Benchmarks. Die kontinuierliche RL‑Schulung mit dem erweiterten Datensatz führte zu stabilen, nachhaltigen Verbesserungen, die bisher unerreichte Ergebnisse erzielten.

Ein besonders eindrucksvolles Anwendungsbeispiel ist die Cybersecurity‑Domäne. Hier wurden aus rohen FineWeb‑Scrapes RLVR‑Aufgaben generiert, die das Modell Qwen3‑4B‑Instruct auf dem neuen GooseReason‑Cyber‑Set trainierten. Das Ergebnis war ein neuer Branchen‑Best‑Score, der sogar einen 7 B‑Modell mit umfangreichem domänenspezifischem Pre‑Training übertraf.

Golden Goose demonstriert, dass unbegrenzte, qualitativ hochwertige RLVR‑Aufgaben aus unverifizierbarem Internettext erschaffen werden können. Diese Innovation ebnet den Weg für leistungsfähigere Sprachmodelle, die komplexes logisches Denken in einer Vielzahl von Fachgebieten meistern.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich praktisch?
Ist das eher Signal, Produkt oder nur kurzfristiger Hype?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

RLVR
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Golden Goose
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
GooseReason-0.7M
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.
Naechste Schritte

Aehnliche Entwicklungen zum Weiterlesen