Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik

Kernaussagen

Das nimmst du aus dem Beitrag mit

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (…
Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropiekollaps, Policy‑Degeneration oder zur übermäßi…
Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufallssammlung vermeidet.

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (MLLMs) zu verbessern. Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropiekollaps, Policy‑Degeneration oder zur übermäßigen Ausnutzung suboptimaler Verhaltensweisen. Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufallssammlung vermeidet.

In diesem Beitrag wird CalibRL vorgestellt – ein Hybrid‑Policy‑RLVR‑Framework, das kontrollierbare Exploration unter Einbeziehung von Expertenwissen ermöglicht. Zwei zentrale Mechanismen bilden die Basis: Erstens ein distributionsbewusstes Vorteil‑Gewichtungsverfahren, das Updates anhand der Seltenheit von Gruppen skaliert und so die Verteilung kalibriert, wodurch die Exploration erhalten bleibt. Zweitens eine asymmetrische Aktivierungsfunktion (LeakyReLU), die das Expertenwissen als Kalibrierungsgrundlage nutzt, um übermäßig selbstsichere Updates zu dämpfen, während die korrigierende Richtung beibehalten wird.

CalibRL steigert die Policy‑Entropie gezielt und klärt die Zielverteilung, indem es die On‑Policy‑Verteilung durch Online‑Sampling schätzt. Die Updates werden von diesen informativen Verhaltensmustern angetrieben, wodurch eine Konvergenz zu fehlerhaften Mustern vermieden wird. Durch diese Entwürfe wird die Diskrepanz zwischen der Modellpolicy und den Expertentrajektorien reduziert, was ein stabileres Gleichgewicht zwischen Exploration und Ausnutzung schafft.

Umfangreiche Experimente an acht Benchmark‑Datensätzen demonstrieren, dass CalibRL die Leistung signifikant steigert und die Herausforderungen von Entropiekollaps und Policy‑Ungleichgewicht effektiv adressiert.

Einordnen in 60 Sekunden

Welche Linse du auf diese Meldung legen solltest

Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.

Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.

Was veraendert sich fuer Nutzer oder Builder konkret?

Ist das ein nachhaltiger Trend oder nur ein kurzes Signal?

Begriffe zum Einordnen

Kontext ohne Glossar-Suche

arXiv – cs.LG

Diese Quelle setzt den Ausgangspunkt fuer die Meldung. Pruefe immer, ob sie eher Forschung, Produktmarketing oder Praxisperspektive liefert.

Lernpfad

Wenn du nach dieser Meldung weiterlernen willst

Start

Zum KI-Archiv

Gehe von dieser Meldung in Themen, Analysen und weitere News, um ein belastbareres Gesamtbild aufzubauen.

Welche Linse du auf diese Meldung legen solltest

Kontext ohne Glossar-Suche

Wenn du nach dieser Meldung weiterlernen willst

🍪 Cookie-Einstellungen