本論文では、経路構築と購買計画を分離しつつ、深化強化学習を用いて全体最適化を目指す新しいアプローチを提案する。バイパーティート・グラフによる問題表現と、グラフニューラルネットワークおよび注意機構を活用したポリシーネットワークにより、効率的な経路構築と高品質な解を実現する。さらに、メタ学習に基づく訓練戦略により、大規模な問題インスタンスに対する高い汎化性能を実現する。