Keskeiset käsitteet
疎報酬環境でのAGVの経路計画問題を解決するために、ランダムネットワーク蒸留(RND)を用いて深層強化学習アルゴリズムPPOを拡張する。
Tiivistelmä
本論文では、AGVの経路計画問題に取り組むために、ランダムネットワーク蒸留(RND)を用いて深層強化学習アルゴリズムPPOを拡張したRND-PPOを提案している。
まず、物理的な剛体特性と連続的な動作空間を持つAGVの経路計画シミュレーション環境を設計した。これにより、実際の物理的シナリオに近づけることができる。
次に、RND-PPOのフレームワークを提案した。RNDは、エージェントに内発的報酬を与えることで、疎報酬環境でのエージェントの探索を促進する。PPOアルゴリズムはこの内発的報酬と外発的報酬を組み合わせて、AGVの経路計画を学習する。
実験では、静的および動的な環境設定で提案手法の有効性を検証した。結果、RND-PPOはPPOに比べて、より効率的かつ安定的にAGVの経路計画を学習できることが示された。特に動的な環境では、RND-PPOはPPOよりも優れた性能を発揮した。
Tilastot
単一ステップの負の報酬は-1/MaxStep
目標物に衝突した場合の報酬は5
Lainaukset
"RNDは、エージェントに内発的報酬を与えることで、疎報酬環境でのエージェントの探索を促進する。"
"PPOアルゴリズムはこの内発的報酬と外発的報酬を組み合わせて、AGVの経路計画を学習する。"