ConstraintBench: LLMs testen direkte Optimierung – Ergebnis: 65 % Konformität
In der Welt der großen Sprachmodelle (LLMs) gewinnt die direkte Lösung von Optimierungsproblemen ohne Hilfsmittel eines Solver-Programms zunehmend an Bedeutung. Mit dem neuen Benchmark ConstraintBench wird untersucht, w…
- In der Welt der großen Sprachmodelle (LLMs) gewinnt die direkte Lösung von Optimierungsproblemen ohne Hilfsmittel eines Solver-Programms zunehmend an Bedeutung.
- Mit dem neuen Benchmark ConstraintBench wird untersucht, wie gut aktuelle LLMs vollständig spezifizierte, constraints-basierte Optimierungsaufgaben lösen können, wenn si…
- ConstraintBench umfasst 200 Aufgaben aus zehn klassischen Operations‑Research‑Domänen – von Produktionsmix über Fahrzeugrouting bis hin zu Crew‑Zuweisungen.
In der Welt der großen Sprachmodelle (LLMs) gewinnt die direkte Lösung von Optimierungsproblemen ohne Hilfsmittel eines Solver-Programms zunehmend an Bedeutung. Mit dem neuen Benchmark ConstraintBench wird untersucht, wie gut aktuelle LLMs vollständig spezifizierte, constraints-basierte Optimierungsaufgaben lösen können, wenn sie keinen Zugriff auf einen Solver haben.
ConstraintBench umfasst 200 Aufgaben aus zehn klassischen Operations‑Research‑Domänen – von Produktionsmix über Fahrzeugrouting bis hin zu Crew‑Zuweisungen. Jede Aufgabe wird in natürlicher Sprache formuliert und enthält Entitäten, Einschränkungen sowie ein Optimierungsziel. Die Modelle müssen eine strukturierte Lösung liefern, die anschließend von einem deterministischen Verifikator gegen sämtliche Constraints und die vom Gurobi‑Solver ermittelte optimale Lösung geprüft wird.
Die Evaluation von sechs führenden LLMs zeigte, dass die Erfüllung der Constraints der Hauptengpass ist. Das bestperformende Modell erreicht lediglich 65 % Konformität, liefert jedoch für die meisten Aufgaben zwischen 89 % und 96 % des optimalen Gurobi‑Werts. Kein Modell übertrifft 30,5 % bei gleichzeitiger Erfüllung aller Constraints und einer Abweichung von höchstens 0,1 % zum Solver‑Ergebnis. Die Schwankungen zwischen den Domänen sind enorm: Während im Produktionsmix 83,3 % der Aufgaben lösbar sind, liegt die Erfolgsquote im Bereich Crew‑Zuweisung bei kaum 1 %.
Die Analyse identifiziert typische Fehlerquellen: Missverständnisse bei Dauer‑Constraints, das Erzeugen von nicht existierenden Entitäten (Halluzination) und eine Trennung von Lösungsfähigkeit und Optimalität, besonders in Facility‑Location‑ und Fahrzeugrouting‑Aufgaben. Diese Erkenntnisse legen nahe, dass zukünftige LLM‑Entwicklungen gezielt auf die Verbesserung der direkten Optimierungsfähigkeit abzielen sollten.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.