Core Concepts
複雑なロボットシステムの制御において、報酬だけでなく制約を活用することで、より少ない報酬設計で高性能なコントローラを得ることができる。制約は一般化性と解釈性が高く、報酬設計の負担を大幅に軽減できる。
Abstract
本研究では、複雑なロボットシステムの制御のために、報酬と制約の両方を活用する新しい強化学習フレームワークを提案した。適切な制約の種類を定義し、効率的な最適化アルゴリズムを開発した。
この学習フレームワークを用いて、様々な形態と物理特性を持つ複数のリーグド・ロボットの歩行制御を行った。シミュレーションと実世界の両方で、報酬設計の負担を大幅に軽減しつつ、高ロバスト性を持つコントローラを得ることができた。
制約は一般化性と解釈性が高いため、報酬設計に頼るよりも、より直感的で効率的なエンジニアリングプロセスを実現できる。本研究の成果は、報酬だけでなく制約を新たなツールとして活用することで、ロボット制御の設計を大幅に改善できる可能性を示唆している。
Stats
各関節の角度は目標範囲内に収まっており、最大0.025以下の確率で目標範囲外に逸脱する
各関節の速度は目標範囲内に収まっており、最大0.025以下の確率で目標範囲外に逸脱する
各関節のトルクは目標範囲内に収まっており、最大0.025以下の確率で目標範囲外に逸脱する
体幹部と地面の接触は最大0.025以下の確率で発生する
重心の高さと姿勢は目標範囲内に収まっており、最大0.025以下の確率で目標範囲外に逸脱する
各脚の接地タイミングは目標のゲイトパターンと0.16以下の確率で一致する
重心速度の直交成分は平均0.32 m/s以下に抑えられる
接地時の足速度は平均0.15 m/s以下に抑えられる
遊脚の最大高さは平均-0.11 m以上に保たれる
各脚の最大高さは平均0.09 m以下に抑えられる
動作の左右対称性は0.07以下の誤差に収まる