Reinforcement Learning überwindet SFT-Platte: Chart‑zu‑Code neu gedacht
In der Forschung zu vision‑language Modellen hat sich das Reinforcement Learning (RL) als besonders wirkungsvoll für komplexe Schlussfolgerungen erwiesen. Für Aufgaben, die ein tiefes Verständnis von informationsreichen Bildern erfordern und strukturierte Ausgaben erzeugen müssen – wie die Umwandlung von Diagrammen in Programmcode – bleibt die Anwendung von RL jedoch noch wenig erforscht.
Die neue Studie von Forschern aus dem arXiv‑Labor zeigt, dass das herkömmliche Supervised Fine‑Tuning (SFT) bei der Generierung von Code aus Diagrammen schnell an seine Grenzen stößt. Trotz großer Datenmengen führt eine weitere Skalierung von SFT kaum noch Verbesserungen, was auf einen Leistungs‑Plateau hinweist.
Um dieses Hindernis zu überwinden, stellen die Autoren das Konzept des Multimodalen Structured Reinforcement Learning (MSRL) vor. MSRL kombiniert ein mehrstufiges Belohnungssystem, das sowohl textuelle als auch visuelle Rückmeldungen nutzt. Auf Textebene werden regelbasierte Belohnungen eingesetzt, die feine Details des generierten Codes prüfen. Auf visueller Ebene wird der erzeugte Code in ein Bild umgewandelt und von einem Evaluator‑Modell auf strukturelle Ähnlichkeit mit dem Originaldiagramm bewertet.
Ein entscheidender Beitrag der Arbeit ist die Zusammenstellung des bislang größten Datensatzes für diese Aufgabe: 3 Millionen Chart‑Code‑Paare aus realen arXiv‑Tabellen. Dieser umfangreiche Korpus reduziert die Gefahr von zu einfachen Mustern, die bei synthetischen Daten häufig auftreten.
Durch die Implementierung eines zweistufigen Curriculum‑Ansatzes bleibt das Training stabil, während die Modelle schrittweise komplexere Aufgaben bewältigen. Die Ergebnisse zeigen, dass MSRL das bisherige SFT‑Plateau deutlich durchbricht und die aktuelle Spitzenleistung bei der Chart‑zu‑Code‑Generierung übertrifft.