本研究では、四脚ロボットの危険回避行動を学習するために、分布強化学習を提案している。従来の強化学習では、期待値のみを最適化していたが、本手法では価値関数の分布全体を推定することで、不確実性を考慮した行動を学習する。
具体的には、価値関数の分布を用いてリスク指標を計算し、それを基に行動を決定する。リスク指標のパラメータを調整することで、リスク回避的または冒険的な行動を切り替えることができる。
シミュレーション実験では、提案手法が従来手法に比べて高い返還を得られることを示した。また、リスク指標の設定によって、段差の登降や障害物の通過など、状況に応じた適切な行動を取ることができることを確認した。
さらに、実機実験では、提案手法を四脚ロボットANYmalに適用し、リスク指標に応じた危険回避行動を確認した。段差の高さに応じて、リスク回避的な場合は段差を登らず、リスク志向的な場合は段差を登ることができた。
以上より、分布強化学習を用いることで、四脚ロボットの危険回避行動を効果的に学習できることが示された。リスク指標を用いることで、状況に応じた柔軟な行動が可能となり、安全性と機動性のバランスを取ることができる。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询