本論文は、シミュレーションで学習した操作政策を現実世界に転移させる新しい手法「TRANSIC」を提案している。
まず、シミュレーション上でRLを用いて基本的な操作政策を学習する。次に、この政策を現実世界のロボットに適用すると、様々なシミュレーションと現実の差異(知覚ギャップ、エンボディメントの違い、制御精度の差異、物理シミュレーションの精度など)により失敗する。
そこで本手法では、人間オペレーターがロボットの動作を監視し、必要に応じて介入・修正を行う。この人間の修正データを用いて、基本政策を補完する残差政策を学習する。最終的に、基本政策と残差政策を統合して、シミュレーションから現実への効果的な政策移転を実現する。
実験の結果、本手法は従来手法と比べて優れた転移性能を示し、少ない現実データでも高い成功率を達成できることが分かった。また、個別のシミュレーションと現実のギャップにも柔軟に対応でき、人間の修正データ量に応じて性能が向上するなど、優れた特性を示した。さらに、個別の操作スキルを組み合わせることで、複雑な家具組み立てなどの長期的な操作タスクにも適用できることが示された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések