Core Concepts
UAVが川沿いの複雑な環境を自律的に飛行し、障害物を回避するためには、強化学習と模倣学習を組み合わせた頑健な制御ポリシーが必要である。
Abstract
本論文では、UAVの川沿い自律飛行タスクのためのシミュレーション環境を開発し、強化学習(RL)と模倣学習(IL)を統合したアプローチを提案している。
まず、人間の専門家によるデモンストレーションデータを使ってILエキスパートを事前に訓練する。次に、RLエージェントの学習過程でILエキスパートの指導を受けつつ、RLエージェントが生成した良質な経験をILエキスパートの更新に活用する。この相互作用により、RLエージェントの収束速度が向上し、最終的な性能も向上する。
提案手法は、部分観測可能で非マルコフ性のある川沿い環境における自律飛行タスクと、同様の特性を持つ格子ワールドのトラック追従タスクの両方で、ベースラインの手法よりも優れた結果を示した。特に、川沿い環境では、提案手法が平均報酬で0.4以上の改善を達成した。
Stats
人間の専門家が収集した50個の成功軌跡で事前にILエキスパートを訓練した。
提案手法(PPO+DynamicBC)は、川沿い環境で平均報酬2.0を達成し、ベースラインよりも0.4以上高い性能を示した。
格子ワールドのトラック追従タスクでは、提案手法が平均報酬19.04を得て、ほぼ最高スコアを達成した。