Główne pojęcia
専門家の解決策を使用せずに、サンプリングと更新戦略を組み合わせて、ニューラル組合せ最適化のための効果的な自己改善方法を提案する。
Streszczenie
現在の方法は高価な専門家の解決策が必要であり、方策勾配法は計算上要求が高い。
新しい手法はラウンドごとにポリシーを洗練し、サンプリングされたシーケンスの利点を活用してポリシーを更新する。
トラベリングセールスマン問題や容量制約付き車両ルーティング問題において、専門家データで訓練されたモデルと同等の性能と汎化性能を達成。
ジョブショップスケジューリング問題においても、既存の最先端手法を大幅に上回る結果を示す。
Statystyki
サンプリング数:1280シーケンスから88%重複(50ノード)および17%重複(100ノード)
σ = 0.3(TSP)、σ = 3(CVRP)で訓練
Cytaty
"Our method achieves results on par with its SL counterpart on the training distribution and shows similarly strong generalization capabilities."
"We outperform all three constructive methods by a wide margin and obtain smaller gaps than L2S with 500 improvement steps in all but one case."