Core Concepts
本研究では、パーティクルフィルタを組み込んだ強化学習アルゴリズム(PF-DDQN)を提案し、従来のDDQNアルゴリズムの課題を解決する。PF-DDQNは、ニューラルネットワークの重みを状態変数として扱い、パーティクルフィルタを用いて重みを反復的に更新することで、アルゴリズムの効率を向上させる。
Abstract
本研究では、強化学習アルゴリズムの一種であるDDQNを拡張した手法を提案している。従来のDDQNアルゴリズムは、ニューラルネットワークの重みの不確定性に起因する課題を抱えていた。
提案手法では、ニューラルネットワークの重みをパーティクルフィルタの状態変数として扱い、反復的に更新することで、アルゴリズムの収束速度と経路計画の精度を向上させている。
具体的には以下の通り:
ニューラルネットワークの重みを状態変数、ネットワークの出力を観測変数として、状態方程式と観測方程式を構築する。
パーティクルフィルタを用いて、ニューラルネットワークの重みを反復的に更新する。これにより、重みの不確定性を低減し、アルゴリズムの効率を向上させる。
更新された重みを用いて、DDQNのQ関数を計算し、最適な行動を選択する。
シミュレーション実験の結果、提案手法は従来のDDQNアルゴリズムと比較して、経路計画の優位性を92.62%、学習時間を76.88%改善できることを示した。
Stats
経路長の合計を最小化することが目的関数である。
各AGVの経路長Liは以下のように計算される:
Li = Σ_k^ns dis(pi,k, pi,k+1)
ここで、pi,0とpi,ns+1はi番目のAGVの初期位置と目標位置、dis(pi,k, pi,k+1)はウェイポイントpi,kとpi,k+1間のユークリッド距離を表す。