DIVA‑GRPO: Mehrschichtige Logik mit anpassbarer Schwierigkeitsstufe
Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler Large Language Models zu verbessern. GRPO ermögli…
- Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler…
- GRPO ermöglicht jedoch lange Argumentationsketten ohne einen externen Kritiker, leidet dabei aber häufig unter spärlichen Belohnungen bei schwierigen Aufgaben und verlie…
- Aktuelle Ansätze wie Stichprobenexpansion, selektive Nutzung oder indirekte Belohnungsdesigns schaffen es nicht, genügend Varianz in den innerhalb‑Gruppen‑Belohnungsvert…
Reinforcement‑Learning‑Modelle, die auf Group Relative Policy Optimization (GRPO) setzen, haben sich als effektive Methode etabliert, um die Denkfähigkeiten multimodaler Large Language Models zu verbessern. GRPO ermöglicht jedoch lange Argumentationsketten ohne einen externen Kritiker, leidet dabei aber häufig unter spärlichen Belohnungen bei schwierigen Aufgaben und verliert die Vorteilssignale, wenn die gruppenweiten Belohnungen zu einheitlich sind – sei es bei zu leichten oder zu harten Problemen.
Aktuelle Ansätze wie Stichprobenexpansion, selektive Nutzung oder indirekte Belohnungsdesigns schaffen es nicht, genügend Varianz in den innerhalb‑Gruppen‑Belohnungsverteilungen zu erhalten, um klare Optimierungsimpulse zu liefern. DIVA‑GRPO begegnet diesem Problem, indem es einen Schwierigkeits‑angepassten Variant‑Advantage‑Mechanismus einführt, der die Schwierigkeitsverteilung der Varianten aus globaler Sicht anpasst.
Der Algorithmus bewertet dynamisch die Problemkomplexität, zieht Varianten mit geeigneten Schwierigkeitsstufen und berechnet die Vorteile sowohl für lokale als auch globale Gruppen unter Verwendung von schwerheitsgewichteten und normalisierten Skalierungen. Dadurch werden spärliche Belohnungen und das Verschwinden von Vorteilen reduziert, während die Trainingsstabilität gesteigert wird.
Umfangreiche Tests an sechs Standard‑Reasoning‑Benchmarks zeigen, dass DIVA‑GRPO die Trainingseffizienz und die Denkleistung gegenüber bestehenden Methoden deutlich übertrifft. Der Quellcode ist auf GitHub verfügbar: https://github.com/Siaaaaaa1/DIVA-GRPO.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.