Neues Benchmark für Operations Research: Solver im Loop für Selbstkorrektur
Operations‑Research-Experten debuggen Modelle häufig durch einen iterativen Prozess: sie analysieren irreduzible infeasible Subsystems (IIS), identifizieren Konflikte in den Nebenbedingungen und reparieren die Formulierung schrittweise, bis die Modellfeasibility erreicht ist. Bisher bewerten LLM‑Benchmarks OR jedoch als One‑Shot‑Übersetzung – ein Problem wird beschrieben, und der Code für einen Solver wird generiert. Dabei wird der diagnostische Loop komplett ignoriert.
Mit den neuen Benchmarks „Solver‑in‑the‑Loop“ wird der Solver selbst in den Evaluationsprozess eingebunden. Das Benchmark‑Set ORDebug testet die iterative Selbstkorrektur an über 5.000 Problemen, die neun verschiedene Fehlerarten abdecken. Jede Reparatur löst eine erneute Solver‑Ausführung und eine neue IIS‑Berechnung aus, sodass das Feedback deterministisch und verifizierbar ist. Das zweite Benchmark‑Set ORBias misst die Verhaltensrationalität anhand von 2.000 News‑Vendors‑Instanzen (1.000 im‑Distribution, 1.000 out‑of‑Distribution) und vergleicht systematische Abweichungen von geschlossenen optimalen Policies.
Die Ergebnisse zeigen, dass ein speziell mit RLVR trainiertes 8‑Billionen‑Parameter‑Modell die führenden APIs übertrifft: die Wiederherstellungsrate liegt bei 95,3 % im Vergleich zu 86,2 % (+9,1 %), die diagnostische Genauigkeit bei 62,4 % gegenüber 47,8 % (+14,6 %) und die durchschnittliche Lösungszeit sinkt auf 2,25 Schritte im Vergleich zu 3,78 (+1,7‑fach schneller). Auf ORBias erzielt ein Curriculum‑Training die einzige negative Bias‑Drift von ID zu OOD (-9,6 %) und reduziert den systematischen Bias um 48 % (von 20,0 % auf 10,4 %).
Diese Ergebnisse demonstrieren, dass ein prozessbasiertes Evaluation mit verifizierbaren Oracles gezieltes Training ermöglicht, das die reine Skalierung übertrifft. Die Benchmarks setzen neue Maßstäbe für die Entwicklung von KI‑Systemen im Operations‑Research‑Bereich.