Core Concepts
差分シミュレーションを活用することで、接触の多い複雑なタスクにおいても、物理的に妥当な歩行行動を学習できることを示した。
Abstract
本論文では、四足ロボットの歩行学習において、差分シミュレーションの活用について検討している。
まず、接触の不連続性がオプティマイゼーションに及ぼす影響を分析した。硬質接触モデルでは位置と速度の不連続性が生じ、勾配推定に問題が生じる一方、ばね-ダンパモデルのような軟質接触モデルは物理的な正確性が低い。
そこで、不連続性を解消しつつ物理的な正確性も保つ、解析的に滑らかな接触モデルを提案した。このモデルは、確率的なスムージング効果を模倣しながら、有用な勾配情報を提供する。
提案手法を用いて四足ロボットの歩行学習を行った結果、物理的に妥当な歩行行動を学習できることを示した。また、勾配ベースの最適化手法SHAC と、ゼロ次勾配ベースのPPOを比較し、SHACの高いサンプル効率を確認した。
以上より、差分シミュレーションを活用することで、接触の多い複雑なタスクにおいても、効率的に物理的に妥当な行動を学習できることが示された。
Stats
重力下で落下する球体の初期高さと最終高さ、最終速度の関係は不連続である。
硬質接触モデルでは、接触力と接触速度の不連続性が見られる。
解析的に滑らかな接触モデルを用いると、確率的なスムージング効果と同様の動作が得られる。