Forschung arXiv – cs.LG

Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (MLLMs) zu verbessern. Während des RL‑Trainings füh…

≈1 Min. Lesezeit Originalquelle
Visuelle Illustration fuer KI-Kontext
Kernaussagen
Das nimmst du aus dem Beitrag mit
  • Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (…
  • Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropie­kollaps, Policy‑Degeneration oder zur übermäßi…
  • Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufalls­sammlung vermeidet.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (MLLMs) zu verbessern. Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropie­kollaps, Policy‑Degeneration oder zur übermäßigen Ausnutzung suboptimaler Verhaltensweisen. Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufalls­sammlung vermeidet.

In diesem Beitrag wird CalibRL vorgestellt – ein Hybrid‑Policy‑RLVR‑Framework, das kontrollierbare Exploration unter Einbeziehung von Expertenwissen ermöglicht. Zwei zentrale Mechanismen bilden die Basis: Erstens ein distributionsbewusstes Vorteil‑Gewichtungsverfahren, das Updates anhand der Seltenheit von Gruppen skaliert und so die Verteilung kalibriert, wodurch die Exploration erhalten bleibt. Zweitens eine asymmetrische Aktivierungsfunktion (LeakyReLU), die das Expertenwissen als Kalibrierungs­grundlage nutzt, um übermäßig selbstsichere Updates zu dämpfen, während die korrigierende Richtung beibehalten wird.

CalibRL steigert die Policy‑Entropie gezielt und klärt die Zielverteilung, indem es die On‑Policy‑Verteilung durch Online‑Sampling schätzt. Die Updates werden von diesen informativen Verhaltensmustern angetrieben, wodurch eine Konvergenz zu fehlerhaften Mustern vermieden wird. Durch diese Entwürfe wird die Diskrepanz zwischen der Modellpolicy und den Experten­trajektorien reduziert, was ein stabileres Gleichgewicht zwischen Exploration und Ausnutzung schafft.

Umfangreiche Experimente an acht Benchmark‑Datensätzen demonstrieren, dass CalibRL die Leistung signifikant steigert und die Herausforderungen von Entropie­kollaps und Policy‑Ungleichgewicht effektiv adressiert.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?
Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?
Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG
Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.