Kernkonzepte
深層強化学習を用いて、パラメータ不確定性を持つ非線形柔軟逆立ち振り子カート系において、複数の独立した時間相関攪乱を能動的に除去する手法を提案する。
Zusammenfassung
本研究では、パラメータ不確定性を持つ非線形柔軟逆立ち振り子カート系において、深層強化学習を用いて攪乱除去制御を行う手法を提案している。
柔軟性を持つ非線形動的システムのモデリングは困難であり、パラメータ不確定性が大きい。また、このようなシステムは大気条件などによる随伴的な攪乱の影響を受けやすい。
提案手法では、深層deterministic policy gradient (DDPG)アルゴリズムを用いて、カートに加える制御力を学習する。攪乱は3つの独立したOrnstein-Uhlenbeck過程によってモデル化されている。
10,000回のモンテカルロシミュレーションの結果、提案手法は従来の比例微分(PD)制御に比べて、状態を望ましい値に近づけ続けることができ、特に速度攪乱に対する抑制性能が優れていることが示された。
今後の課題として、より現実的な制御器モデルの導入や、パラメータ推定や攪乱観測を組み合わせた手法の検討が挙げられる。
Statistiken
ϕ, θ, ˙
z の最大値は11度未満に抑えられている。
制御力の最大値は約1.5Nである。
Zitate
「深層強化学習を用いて、パラメータ不確定性を持つ非線形柔軟逆立ち振り子カート系において、複数の独立した時間相関攪乱を能動的に除去する手法を提案する。」
「10,000回のモンテカルロシミュレーションの結果、提案手法は従来のPD制御に比べて、状態を望ましい値に近づけ続けることができ、特に速度攪乱に対する抑制性能が優れていることが示された。」