Core Concepts
物理環境での訓練中に安全性を確保しながら、制約付きRLアルゴリズムの適用範囲を拡大することが可能である。
Abstract
シミュレーターの利点を活かし、Pandaロボットアームのカスタム環境で安全なRLアルゴリズムを評価。PPOアルゴリズムによるパイロット実験では、制約バージョンが同等のポリシーを学習しつつ、安全性制約により適合し、予想以上のトレーニング時間がかかったことが示された。AR1とAR2の行動表現を比較し、Lagrangian PPOは訓練時間が長いものの、コストを低く抑えている。さまざまなセットアップでロボットアームを実験する機会が提供されており、他のSafety Gym内で利用可能なアルゴリズムも試すことができる。
Stats
ロボティクスアーム(7 DoF)におけるPPOとcPPOの平均コスト:3D 17.6±1.3, 11.9±3.6 / 7DoF 23.8±5.0, 17.0±1.9
ポリシーネットワーク:各64ニューロンを持つ2つの隠れ層から成るfeedforward MLPポリシーネットワーク
最大エポック数:200 / エピソードあたり最大ステップ数:500 / ステップ数:1000
Quotes
"Constrained (Lagrangian) PPO algorithm was observed to have a longer learning time, but eventually learned the policies at the same level of efficiency while being all the way safer."
"Regarding AR type, the agent learns faster (roughly with speedup factor of 2) and easier when using AR1 than AR2."
"Lagrangian PPO is slower in learning and reaching the reward. On the other hand, it is keeping the cost at lower values hence making the arm behavior safer."