Deep RL Hyperheuristik übertrifft klassische Heuristiken bei Job-Shop-Planung
Ein neues Forschungsprojekt aus dem arXiv-Repository präsentiert ein innovatives, policy‑basiertes Deep‑Reinforcement‑Learning‑Framework, das das klassische Job‑Shop‑Scheduling‑Problem (JSSP) effizient löst. Das System nutzt Hyperheuristiken, um dynamisch zwischen verschiedenen Scheduling‑Regeln zu wechseln und so die Produktionsplanung zu optimieren.
Der Hyperheuristik‑Agent lernt, welche Regel in welchem Systemzustand am besten geeignet ist. Durch die Kombination von Low‑Level‑Heuristiken und einem lernenden Policy‑Netzwerk kann das Modell flexibel auf unterschiedliche Produktionsbedingungen reagieren.
Zur Verbesserung der Entscheidungsfindung wurden zwei zentrale Mechanismen eingeführt. Erstens beschränkt ein Action‑Prefiltering die Auswahl auf zulässige Low‑Level‑Aktionen, wodurch die Heuristiken unabhängig von Umgebungsbeschränkungen bewertet werden können. Zweitens reguliert ein Commitment‑Mechanismus die Häufigkeit des Heuristik‑Wechsels, sodass das System zwischen schrittweisen und voll‑Episode‑Commitments unterscheidet.
Die Autoren untersuchen, wie verschiedene Commitment‑Strategien das Training und die Makespan‑Leistung beeinflussen. Zusätzlich vergleichen sie deterministische Greedy‑Auswahl und stochastische Sampling‑Methoden auf Policy‑Ebene, um die optimale Entscheidungsfindung zu identifizieren.
Computational Experimente auf etablierten JSSP‑Benchmarks zeigen, dass das vorgeschlagene Deep‑RL‑Framework traditionelle Heuristiken, Metaheuristiken und neuere neuronale Netz‑basierte Ansätze übertrifft. Die Ergebnisse deuten darauf hin, dass policy‑basierte Hyperheuristiken ein vielversprechender Ansatz für komplexe Produktionsplanungsaufgaben darstellen.