Keskeiset käsitteet
現実世界のロボットへの強化学習の適用を阻害している主要な問題の1つが安全性である。本研究では、事前知識を活用しつつ、学習可能な制約を導入することで、長期的な安全性と不確実性への対処を実現する。
Tiivistelmä
本研究では、セーフ強化学習の分野において、事前知識を活用しつつ、学習可能な制約を導入することで、長期的な安全性と不確実性への対処を実現する手法を提案している。
具体的には以下の通り:
- 実環境への適用が困難な従来のセーフ探索手法の課題を指摘し、ロボット動力学の事前知識を活用しつつ、制約関数を学習可能にする手法を提案する。
- 制約関数の不確実性を考慮するため、分布強化学習の枠組みを導入し、Value-at-Risk (VaR) や Conditional Value-at-Risk (CVaR) を用いた制約設定を行う。
- 制約関数の更新に伴う行動空間の非定常性に対処するため、元の行動空間での価値関数を学習する手法を提案する。
提案手法は、従来手法と比較して、学習中の安全性を維持しつつ、最終的な性能も同等以上に達成できることを示している。
Tilastot
制約関数kpsqは[-kmax, kmax]の範囲に収まる
割引率γは[0, 1)の範囲