Core Concepts
学習ベースのローカルポリシーの性能を大幅に向上させるために、ヒューリスティック探索手法を活用する。
Abstract
本論文では、多エージェントパス探索問題(MAPF)における学習ベースのローカルポリシーの性能を改善する手法を提案している。
まず、学習ベースのポリシーが提案する1ステップ行動が衝突を引き起こす可能性がある問題に対して、PIBT(Priority Inheritance with Backtracking)を用いた「スマートな」衝突回避手法(CS-PIBT)を提案する。これにより、ポリシーの成功率とスケーラビリティが大幅に向上する。
次に、学習ベースのポリシーをLaCAM(Lazy Constraints Addition search for MAPF)と組み合わせることで、完全性を持ちつつ長期的な計画を可能にする。これにより、さらなる成功率とスケーラビリティの向上が実現される。
最後に、学習ベースのポリシーとヒューリスティック(backward Dijkstra's)を組み合わせる方法について検討し、両者の長所を活かすことで、ソリューションコストの改善にも繋がることを示す。
全体として、本手法は学習ベースのMAPFアプローチの性能を大幅に向上させ、従来の探索ベースのアプローチと肩を並べるレベルまで引き上げることに成功している。
Stats
成功率の比較:
50エージェントの場合、MAGAT(CS-Naive)は0.904、MAGAT(CS-PIBT)は0.976
100エージェントの場合、MAGAT(CS-Naive)は0.424、MAGAT(CS-PIBT)は0.768
200エージェントの場合、MAGAT(CS-Naive)は0.016、MAGAT(CS-PIBT)は0.592