Forschung arXiv – cs.AI

DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler Large Language Models zu verbessern. GRPO ermögli…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler…
  • GRPO ermöglicht jedoch lange Argumentationsketten ohne einen externen Kritiker, leidet dabei aber häufig unter spärlichen Belohnungen bei schwierigen Aufgaben und verlie…
  • Aktuelle Ansätze wie Stichprobenexpansion, selektive Nutzung oder indirekte Belohnungsdesigns schaffen es nicht, genügend Varianz in den innerhalb‑Gruppen‑Belohnungsvert…

Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler Large Language Models zu verbessern. GRPO ermöglicht jedoch lange Argumentationsketten ohne einen externen Kritiker, leidet dabei aber häufig unter spärlichen Belohnungen bei schwierigen Aufgaben und verliert die Vorteilssignale, wenn die gruppenweiten Belohnungen zu einheitlich sind – sei es bei zu leichten oder zu harten Problemen.

Aktuelle Ansätze wie Stichprobenexpansion, selektive Nutzung oder indirekte Belohnungsdesigns schaffen es nicht, genügend Varianz in den innerhalb‑Gruppen‑Belohnungsverteilungen zu erhalten, um klare Optimierungsimpulse zu liefern. DIVA‑GRPO begegnet diesem Problem, indem es einen Schwierigkeits‑angepassten Variant‑Advantage‑Mechanismus einführt, der die Schwierigkeitsverteilung der Varianten aus globaler Sicht anpasst.

Der Algorithmus bewertet dynamisch die Problemkomplexität, zieht Varianten mit geeigneten Schwierigkeitsstufen und berechnet die Vorteile sowohl für lokale als auch globale Gruppen unter Verwendung von schwerheitsgewichteten und normalisierten Skalierungen. Dadurch werden spärliche Belohnungen und das Verschwinden von Vorteilen reduziert, während die Trainingsstabilität gesteigert wird.

Umfangreiche Tests an sechs Standard‑Reasoning‑Benchmarks zeigen, dass DIVA‑GRPO die Trainings­effizienz und die Denkleistung gegenüber bestehenden Methoden deutlich übertrifft. Der Quellcode ist auf GitHub verfügbar: https://github.com/Siaaaaaa1/DIVA-GRPO.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.AI
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.