核心概念
エンドツーエンド深層強化学習を用いて、四角ローター群が障害物密集環境で衝突を回避しながら目標地点に到達する制御ポリシーを学習する。
要約
本研究では、エンドツーエンド深層強化学習を用いて、四角ローター群が障害物密集環境で衝突を回避しながら目標地点に到達する制御ポリシーを学習する。
主な特徴は以下の通り:
- 再生バッファを用いて、衝突エピソードを強調することで、効率的に衝突回避行動を学習する。
- 近隣ロボットと障害物の相互作用に注目する注意機構を導入し、複雑な環境での性能を向上させる。
- 障害物の表現にSDF(Signed Distance Field)を用いることで、障害物の数や順序に依存しない表現を実現する。
- 提案手法は、シミュレーション上で32台のロボットに対して80%の障害物密度でも高い成功率を示し、実機の8台ロボットに対して20%の障害物密度でも転移可能である。
- 提案手法は、従来の学習ベースおよび古典的な制御ベースの手法と比較して、高い成功率と低い計算コストを実現する。
統計
ロボットの目標地点までの平均距離は0.43 m
ロボットの衝突率は4%
引用
"提案手法は、シミュレーション上で32台のロボットに対して80%の障害物密度でも高い成功率を示し、実機の8台ロボットに対して20%の障害物密度でも転移可能である。"
"提案手法は、従来の学習ベースおよび古典的な制御ベースの手法と比較して、高い成功率と低い計算コストを実現する。"