MPRM-Training: Mit 10 % Daten die volle Leistung erreichen

In der Forschung zu multimodalen Prozessbelohnungsmodellen (MPRMs) steht die effiziente Nutzung von Trainingsdaten im Fokus. MPRMs sind entscheidend für die schrittweise Überwachung visueller Argumentationsprozesse in multimodalen großen Sprachmodellen (MLLMs). Traditionell erfordert das Training dieser Modelle umfangreiche, Monte-Carlo-annotierte Datensätze, was enorme Kosten verursacht.

Eine neue Studie untersucht, wie viel Daten tatsächlich nötig sind, um die volle Leistungsfähigkeit zu erreichen. Die Ergebnisse zeigen, dass das Training bei zufälliger Teilstichprobenauswahl schnell an Leistungssättigung stößt – ein Hinweis auf erhebliche Redundanz in den vorhandenen Datensätzen.

Um dieses Phänomen zu erklären, wurde ein theoretisches Rahmenwerk entwickelt. Es identifiziert zwei Schlüsselfaktoren für informative Gradientenupdates: die Mischung aus positiven und negativen Schritten sowie die Zuverlässigkeit der Labels, gemessen an den durchschnittlichen Monte-Carlo-Scores positiver Schritte.

Auf Basis dieser Erkenntnisse wurde der Balanced-Information Score (BIS) eingeführt. BIS priorisiert sowohl die Mischung als auch die Zuverlässigkeit, indem es vorhandene Monte-Carlo-Signale auf Rollout-Ebene nutzt – ohne zusätzliche Kosten. In Experimenten mit den Modellen InternVL2.5-8B und Qwen2.5-VL-7B auf der VisualProcessBench zeigte sich, dass BIS-basierte Datenauswahlen die volle Leistung bereits mit nur 10 % der ursprünglichen Trainingsdaten erreichen. Im Vergleich zu zufälliger Stichprobenauswahl verbessert sich die Leistung um 4,1 % relativ.

Diese Ergebnisse deuten darauf hin, dass MPRM-Training mit gezielter Datenpriorisierung nicht nur kosteneffizienter, sondern auch leistungsstärker sein kann. Die Einführung von BIS könnte damit einen wichtigen Schritt zur Skalierbarkeit multimodaler Lernsysteme darstellen.

Ähnliche Artikel

🍪 Cookie-Einstellungen