Core Concepts
RLのシミュレーションから実環境への転送に焦点を当てたTIAGoの使用事例。
Abstract
スタンフォード大学のJaume Albardaner、Alberto San Miguel、N´estor Garc´ıa、およびMag´ı DalmauによるEurecat、Centre Tecnol`ogic Catalunya、Robotics & Automation Unitでの研究は、ロボット操作におけるポリシー学習アプローチを探求しました。Isaac GymとIsaac Simという2つの最先端シミュレーターに焦点を当てながら、TIAGoモバイルマニピュレーターを使用したロボティックマニピュレーションにおけるsim-to-real転送を探求しました。制御アーキテクチャが議論され、特に衝突しない動きをシミュレーションと実環境の両方で達成することが強調されました。提示された結果は成功したsim-to-real転送を示し、RLトレーニングモデルによって類似した動きがシミュレートおよび実際のセットアップで実行されたことを示しています。
Reinforcement Learning simulators
RL技術は自律性を必要とするアプリケーションに特に有用です。
ロボティクスではデータ収集が主な困難です。
実際のロボットでRLを行う場合でも監視が必要です。
TIAGo use case
Models
物理学的なオブジェクトのシミュレートは計算上コストがかかります。
シミュレーター設定は自己衝突をチェックしないこともあります。
Controls
各シミュレーターでロボットがどのように制御されるかは異なります。
Isaac Gymでは位置、速度、努力制御が適用可能です。
Trained model
最初の訓練済みモデルはTIAGo mobile manipulatorを"Home"位置から完全に伸ばされた位置まで移動させます。
同じ報酬関数(報酬= -|DOFvalue|)で同じ数のトレーニングエポック(100K)で訓練された両方のモデルでも動きは異なります。
Results
Simulator responses
各ジョイントへのステップ入力ごとに各シミュレーターと実際のロボット間で応答差異を評価するためにステップ入力が導入されました。
Isaac Gymでは累積エラーも小さくなっています。
Trained model results comparison
Conclusions
Stats
ロボット操作におけるポリシー学習アプローチを探求しました。
Isaac GymとIsaac Simという2つの最先端シミュレーターに焦点を当てました。