本論文では、四足ロボットの歩行学習において、差分シミュレーションの活用について検討している。
まず、接触の不連続性がオプティマイゼーションに及ぼす影響を分析した。硬質接触モデルでは位置と速度の不連続性が生じ、勾配推定に問題が生じる一方、ばね-ダンパモデルのような軟質接触モデルは物理的な正確性が低い。
そこで、不連続性を解消しつつ物理的な正確性も保つ、解析的に滑らかな接触モデルを提案した。このモデルは、確率的なスムージング効果を模倣しながら、有用な勾配情報を提供する。
提案手法を用いて四足ロボットの歩行学習を行った結果、物理的に妥当な歩行行動を学習できることを示した。また、勾配ベースの最適化手法SHAC と、ゼロ次勾配ベースのPPOを比較し、SHACの高いサンプル効率を確認した。
以上より、差分シミュレーションを活用することで、接触の多い複雑なタスクにおいても、効率的に物理的に妥当な行動を学習できることが示された。
翻譯成其他語言
從原文內容
arxiv.org
深入探究