核心概念
物理ベースのシミュレーション環境で複数のエージェントを訓練し、深層ニューラルネットワークとAdvantage Actor-Criticアルゴリズムを組み合わせることで、ロボットがプッシャブルオブジェクト間で効果的にローカルパスプランニングを行う方法を提案する。
要約
ロボットの能力向上に関する論文。
ロボットが障害物を押して道を切り開く方法に焦点を当てた新しいアプローチ。
障害物操作における深層強化学習の有効性を示す。
シミュレーション環境と実機実験の両方で手法の有効性を検証。
イントロダクション
モバイルロボットは過去10年で大きな進歩を遂げ、障害物回避や自律航行能力が向上した。
しかし、移動可能なオブジェクトがあるナビゲーション問題は未解決。
人間が家具などの障害物を移動させて通路を確保するように、ロボットも最適な経路を見つけるために障害物を戦略的に移動させられる必要がある。
方法論
強化学習フレームワーク内でエージェントが状態stを観測し、ポリシーπ(at|st; θ)に基づいて行動atを選択する。
アドバンテージアクター・クリティック法では、ポリシーと価値関数V(st; w)の両方が調整される。
実験結果
シングルマップおよびマルチマップシナリオで訓練されたポリシーは、新しい障害配置や未知の環境でも効果的な戦略を展開した。
実機実験では、カメラとArUcoマーカーを使用して四足歩行ロボットが隔離された空間内で障害物回避行動や目標到達まで示した。
統計
著者はUniversity College LondonのDepartment of Computer Science and Mechanical Engineering所属。
研究はUKRI FLF [MR/V025333/1] (RoboHike)およびEPSRC [EP/P012841/1]から支援された。
引用
"本論文では,我々は,推進可能なオブジェクト間でロボットが局所的な経路計画を効果的に行う方法" - Linghong Yaoら