MPRM-Training: Mit 10 % Daten die volle Leistung erreichen
In der Forschung zu multimodalen Prozessbelohnungsmodellen (MPRMs) steht die effiziente Nutzung von Trainingsdaten im Fokus. MPRMs sind entscheidend für die schrittweise Überwachung visueller Argumentationsprozesse in multimodalen großen Sprachmodellen (MLLMs). Traditionell erfordert das Training dieser Modelle umfangreiche, Monte-Carlo-annotierte Datensätze, was enorme Kosten verursacht.