LLMs verstehen CP-Modelle nur bei exakten Formulierungen
In der Optimierung und im Constraint Programming besteht seit langem der Wunsch, ein Problem in natürlicher Sprache zu beschreiben und automatisch ein effizientes, ausführbares Modell zu erzeugen. Große Sprachmodelle (LLMs) nähern dieses Ziel mit beeindruckenden Ergebnissen an, indem sie Modelle für klassische Benchmarks generieren.
Doch ein großer Teil des Erfolgs könnte eher auf Datenkontamination zurückzuführen sein: Viele Standard-CP-Probleme sind vermutlich bereits im Trainingsdatensatz der Modelle enthalten. Um diese Hypothese zu prüfen, wurden bekannte CSPLib-Probleme systematisch umformuliert und verändert, sodass ihre Struktur erhalten blieb, aber der Kontext und die Wortwahl variierten.
Die Autoren verglichen die von drei repräsentativen LLMs erzeugten Modelle für die Original- und die modifizierten Beschreibungen. Die Analyse zeigte, dass die Modelle zwar syntaktisch korrekt und semantisch plausibel sind, ihre Leistung jedoch stark abnimmt, wenn die Formulierung leicht verändert wird. Das deutet auf ein flaches Verständnis und eine hohe Sensitivität gegenüber der Wortwahl hin.
Die Ergebnisse legen nahe, dass LLMs zwar in der Lage sind, CP-Modelle zu generieren, jedoch noch nicht über ein tiefes, kontextunabhängiges Verständnis verfügen. Für die praktische Anwendung ist daher Vorsicht geboten, und weitere Forschung ist nötig, um die Robustheit dieser Modelle zu erhöhen.