핵심 개념
深層ニューラルネットワークを用いて、パラメータ化された連続行動空間においても強化学習を行うことができる。提案手法は、RoboCupサッカーの課題において、手動で設計された強力なエージェントよりも信頼性の高い得点を上げることができる。
초록
本論文では、パラメータ化された行動空間における深層強化学習手法を提案している。具体的には以下の通りである:
- RoboCupサッカーの Half Field Offense (HFO) ドメインを対象とする。HFOドメインでは、エージェントは離散的な行動(ダッシュ、ターン、タックル、キック)と、それぞれの行動に対応する連続的なパラメータを選択する必要がある。
- Deep Deterministic Policy Gradients (DDPG) アルゴリズムを拡張し、パラメータ化された行動空間に適用する。特に、行動空間の勾配を適切に制限する手法を提案する。
- 提案手法を用いて、HFOドメインにおいてボールに近づき、ゴールに向けてキックする行動を学習させる。
- 学習したエージェントの性能を、手動で設計された強力なエージェントと比較する。その結果、提案手法によって学習したエージェントは、より信頼性の高い得点を上げることができることを示す。
통계
ダッシュ力が最大98.8まで達した
ターン角度が-180度から180度の範囲内に収まった
タックル角度が-180度から180度の範囲内に収まった
キック力が最大100まで達した
인용구
"深層ニューラルネットワークを用いて、パラメータ化された連続行動空間においても強化学習を行うことができる。"
"提案手法によって学習したエージェントは、より信頼性の高い得点を上げることができる。"