核心概念
拡散ポリシーを用いた全身型ヒューマノイド制御では、データセットのサイズと多様性、特にドメインランダム化が、安定した歩行動作を実現し、複雑な環境に一般化する上で重要な役割を果たす。
書誌情報
Kaidanov, O., Al-Hafez, F., Süvari, Y., Belousov, B., Peters, J. (2024). The Role of Domain Randomization in Training Diffusion Policies for Whole-Body Humanoid Control. CoRL 2024 Workshop on Whole-Body Control and Bimanual Manipulation (CoRL 2024 WCBM). arXiv:2411.01349v1 [cs.RO]
研究目的
本研究では、拡散ポリシー(DP)を用いた全身型ヒューマノイド制御における、データセットのサイズと多様性、特にドメインランダム化(DR)の影響を調査することを目的とする。
方法
IsaacGymシミュレータ環境において、様々なDR条件下でAdversarial Motion Prior (AMP)エージェントを学習させ、合成的な動作データセットを生成した。
データセットのサイズとDRのレベルを変えてDPを学習し、その性能を比較評価した。
評価は、DRなしの平坦な地形と、DRありの複雑で凹凸のある地形の2つの環境で行った。
成功率、追従性能、滑らかさの3つの指標を用いてDPの性能を評価した。
主な結果
DRは、DPの学習において非常に重要であり、DRなしで大規模なデータセットを使用しても、ランダム化されていない環境では一般化が困難であることがわかった。
特に、地形と摂動のランダム化が、データの網羅性を高め、DPの汎化性能を向上させる上で最も重要であることがわかった。
データセットのサイズも、全身型ヒューマノイド制御のような動的なタスクを学習する上で重要な役割を果たすことがわかった。
200万サンプル以上のデータセットを使用することで、安定した歩行動作を実現するDPを学習することができた。
結論
本研究の結果は、拡散ポリシーを用いた全身型ヒューマノイド制御において、データセットのサイズと多様性、特にドメインランダム化が、安定した歩行動作を実現し、複雑な環境に一般化する上で重要な役割を果たすことを示唆している。
意義
本研究は、拡散ポリシーを用いたヒューマノイド制御の分野における重要な貢献であり、今後の研究の方向性を示唆するものである。
限界と今後の研究
本研究では、シミュレーション環境のみで評価を行っており、実環境における評価は今後の課題である。
より複雑なタスクや環境におけるDRの効果を調査する必要がある。
統計
データセットのサイズは、50万、200万、800万遷移の3種類。
各拡散ポリシーは、3つの異なるランダムシードで学習。
各評価は10秒間、シミュレーションステップ数にして500ステップ。
指令速度は、前進方向に1m/s。
50万サンプルのデータセットでは、どの構成でも安定した歩行は達成されなかった。
200万サンプル以上のデータセットを使用することで、安定した歩行動作を実現するDPを学習することができた。
800万サンプルのデータセットを使用した場合、摂動と地形ランダム化が最も良い結果を示した。