Kontrollierbare Exploration in Hybrid-Policy RLVR für multimodale Logik
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (MLLMs) zu verbessern. Während des RL‑Trainings füh…
- Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (…
- Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropiekollaps, Policy‑Degeneration oder zur übermäßi…
- Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufallssammlung vermeidet.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als zentrales Lernparadigma etabliert, um die Denkfähigkeiten multimodaler Large Language Models (MLLMs) zu verbessern. Während des RL‑Trainings führt die enorme Zustandsmenge der Modelle zusammen mit spärlichen Belohnungen häufig zu Entropiekollaps, Policy‑Degeneration oder zur übermäßigen Ausnutzung suboptimaler Verhaltensweisen. Deshalb ist eine explorative Strategie nötig, die produktive Stochastizität bewahrt, aber die Nachteile unkontrollierter Zufallssammlung vermeidet.
In diesem Beitrag wird CalibRL vorgestellt – ein Hybrid‑Policy‑RLVR‑Framework, das kontrollierbare Exploration unter Einbeziehung von Expertenwissen ermöglicht. Zwei zentrale Mechanismen bilden die Basis: Erstens ein distributionsbewusstes Vorteil‑Gewichtungsverfahren, das Updates anhand der Seltenheit von Gruppen skaliert und so die Verteilung kalibriert, wodurch die Exploration erhalten bleibt. Zweitens eine asymmetrische Aktivierungsfunktion (LeakyReLU), die das Expertenwissen als Kalibrierungsgrundlage nutzt, um übermäßig selbstsichere Updates zu dämpfen, während die korrigierende Richtung beibehalten wird.
CalibRL steigert die Policy‑Entropie gezielt und klärt die Zielverteilung, indem es die On‑Policy‑Verteilung durch Online‑Sampling schätzt. Die Updates werden von diesen informativen Verhaltensmustern angetrieben, wodurch eine Konvergenz zu fehlerhaften Mustern vermieden wird. Durch diese Entwürfe wird die Diskrepanz zwischen der Modellpolicy und den Expertentrajektorien reduziert, was ein stabileres Gleichgewicht zwischen Exploration und Ausnutzung schafft.
Umfangreiche Experimente an acht Benchmark‑Datensätzen demonstrieren, dass CalibRL die Leistung signifikant steigert und die Herausforderungen von Entropiekollaps und Policy‑Ungleichgewicht effektiv adressiert.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.