核心概念
深層強化学習を用いて、オペレーター選択、破壊の程度、受容基準の設定を動的に制御することで、アダプティブ大域近傍探索の性能を向上させる。
要約
本論文は、深層強化学習を用いてアダプティブ大域近傍探索(ALNS)のオペレーター選択、破壊の程度、受容基準の設定を動的に制御するDR-ALNSを提案している。
ALNSは組合せ最適化問題を解くための有効なメタヒューリスティックだが、オペレーターの重みづけや受容基準の設定が課題となっている。
DR-ALNSでは、状態に応じて深層強化学習エージェントがオペレーターの選択、破壊の程度、受容基準を決定する。
実験では、オリエンテーリング問題(OPSWTW)に適用し、従来のALNSや他の深層強化学習ベースの手法よりも優れた性能を示した。
さらに、DR-ALNSは他の組合せ最適化問題(CVRP、TSP、mTSP)にも適用可能であり、問題間での転移学習も可能であることを示した。
統計
顧客間の所要時間は、ユークリッド距離にノイズ項を乗じて算出される。
制限時間内に訪問できなかった顧客には-nのペナルティ、時間制約違反には-1のペナルティが課される。