LLM-basierte Code‑Weltmodelle steuern Evolutionäre Algorithmen
Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) nicht nur Texte generieren, sondern auch das Verhalten von Optimierern erlernen und gezielt steuern können. Durch die Synthese von Code‑Weltmodellen (CWMs) – Pytho…
- Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) nicht nur Texte generieren, sondern auch das Verhalten von Optimierern erlernen und gezielt steuern können.
- Durch die Synthese von Code‑Weltmodellen (CWMs) – Python‑Programmen, die die Dynamik eines Optimierungsprozesses vorhersagen – wird ein kompletter Simulator des Optimier…
- Im konkreten Beispiel werden aus suboptimalen Trajektorien des (1+1)-RLS_k-Optimierers LLM‑generierte Simulationsmodelle erzeugt.
Eine neue Studie zeigt, dass große Sprachmodelle (LLMs) nicht nur Texte generieren, sondern auch das Verhalten von Optimierern erlernen und gezielt steuern können. Durch die Synthese von Code‑Weltmodellen (CWMs) – Python‑Programmen, die die Dynamik eines Optimierungsprozesses vorhersagen – wird ein kompletter Simulator des Optimierers erstellt, der anschließend für die Parameterwahl genutzt wird.
Im konkreten Beispiel werden aus suboptimalen Trajektorien des (1+1)-RLS_k-Optimierers LLM‑generierte Simulationsmodelle erzeugt. Ein greedy‑Planer nutzt diese Modelle, um in jedem Schritt die optimale Mutationsstärke k auszuwählen. Auf klassischen Benchmark‑Problemen wie LO und OneMax erreicht die CWM‑Greedy‑Strategie innerhalb von 6 % der theoretisch optimalen Politik, ohne jemals optimale Trajektorien gesehen zu haben.
Bei der schwierigen Jump_k‑Funktion, bei der adaptive Baselines komplett scheitern, erzielt CWM‑Greedy eine 100 % Erfolgsrate – ein klarer Durchbruch gegenüber den 0 % der Konkurrenz. Auf dem NK‑Landscape, wo keine geschlossene Modellgleichung existiert, übertrifft CWM‑Greedy sämtliche Baselines bei 15 unabhängigen Instanzen (36,94 % vs. 36,32 %; p < 0,001), wenn das Prompt empirische Übergangsdaten enthält.
Darüber hinaus übertrifft CWM‑Greedy Deep‑Q‑Netzwerke in der Stichprobeneffizienz (200 Offline‑Trajektorien vs. 500 Online‑Episoden), in der Erfolgsrate (100 % vs. 58 %) und in der Generalisierung (bei k = 3: 78 % vs. 0 %). Robustheitstests bestätigen die stabile Synthese über fünf unabhängige Läufe hinweg.
Welche Linse du auf diese Meldung legen solltest
Dieses Thema ist relevant, weil es zeigt, wie sich KI-Produkte, Modelle oder Rahmenbedingungen in der Praxis verschieben.
Achte zuerst darauf, was sich fuer Nutzer, Builder oder Unternehmen konkret veraendert und ob daraus ein nachhaltiger Trend entsteht.