本論文では、完全観測可能な環境下での自動駐車タスクのためのパス計画において、強化学習をMCTSに統合する手法を提案する。
まず、自動駐車タスクをマルコフ決定過程として定式化し、自転車モデルを用いた車両運動学を表現する。次に、MCTSアルゴリズムの選択、展開、シミュレーション、バックプロパゲーションの各ステップを設計する。
さらに、強化学習のパイプラインを導入し、MCTSをポリシー改善オペレータとして活用する。生成されたデータセットに基づき、ニューラルネットワークを訓練して、状態に対する方策分布と価値の推定を行う。
実験では、提案手法をハイブリッドA*アルゴリズムと比較し、複雑な駐車環境下でも高速なパス計画を実現できることを示す。また、実際の自動運転車両への適用例も紹介する。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Xinlong Zhen... klo arxiv.org 03-27-2024
https://arxiv.org/pdf/2403.17234.pdfSyvällisempiä Kysymyksiä