核心概念
本文提出了一種新的離線強化學習方法 (H-ORL),用於解決具有複雜約束的組合優化問題,特別是作業車間調度問題 (JSSP) 和柔性作業車間調度問題 (FJSSP),並通過將狀態空間表示為異構圖和可變動作空間,在基準測試中優於現有技術。
摘要
基於異構圖表示和可變動作空間的離線強化學習,用於求解作業車間調度問題
本研究旨在開發一種更有效的方法,用於解決具有複雜約束並需要即時解決方案的組合優化問題,特別是作業車間調度問題 (JSSP) 和柔性作業車間調度問題 (FJSSP)。
本研究提出了一種新的離線強化學習方法 (H-ORL),該方法將狀態空間表示為異構圖,並採用可變動作空間。具體來說,該方法使用邊緣屬性來編碼在每個步驟中採取的動作,並提出了一種新的損失函數,以平衡預期獎勵和模仿專家解決方案的能力。
主要創新點:
將 JSSP 和 FJSSP 建模為具有有限可見操作和同時分配多個任務的馬爾可夫決策過程,從而減少狀態轉換和模型評估。
引入一種新的基於離線強化學習動作值的算法,用於狀態表示為異構圖且動作空間可變的問題。
提出了一種新的離線 DRL 方法損失函數,該函數平衡了預期獎勵和基於與模仿專家解決方案的能力相關的分類指標的損失項。