Zwei‑Stufen‑Entropieoptimierung erhöht Rausch‑Toleranz bei multimodalen LLMs
Ein neuer Ansatz für Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) verspricht, die Trainingsqualität multimodaler Large Language Models (MLLMs) deutlich zu verbessern – selbst wenn die verfügbaren Labels stark verrauscht sind. Traditionelle RLVR‑Methoden neigen dazu, sich an fehlerhafte Annotationen anzupassen und verlieren dabei wichtige Rangordnungsinformationen für die Group‑Relative Policy Optimization (GRPO).