OR-R1: Automatisierte Optimierungsmodellierung mit Testzeit-Reinforcement-Learning In der Praxis der Operations Research (OR) ist die Umwandlung von natürlichen Sprachbeschreibungen in formale Modelle und Solver-Code ein hochkomplexer Prozess, der traditionell viel Fachwissen erfordert. Das neue Framework OR‑R1 adressiert dieses Problem mit einer daten‑effizienten Lernstrategie, die sowohl begrenzte gelabelte Daten als auch reichlich unlabelte Daten nutzt. Der Ansatz besteht aus zwei aufeinanderfolgende

arXiv – cs.AI Original
Anzeige