本研究では、確率制約付き部分観測マルコフ決定過程(CC-POMDP)の計画問題に取り組んでいる。従来の部分観測マルコフ決定過程(POMDP)の解法では、安全性と報酬のバランスを取るために報酬関数にペナルティを組み込む必要があった。一方、CC-POMDPは安全性と報酬を分離して扱うことができ、目標とする安全レベルを直接指定できる。
本研究では、ConstrainedZeroアルゴリズムを提案している。ConstrainedZeroは、BetaZeroアルゴリズムを拡張したものであり、ニューラルネットワークによる価値関数と行動選択方策の推定に加えて、失敗確率の推定も行う。オフラインでのポリシー改善段階では、失敗確率の推定も学習の対象となる。オンラインの計画段階では、Monte Carlo木探索(MCTS)において、適応的な安全制約(∆-MCTS)を用いて、目標とする安全レベルを満たしつつ、報酬の最大化を実現する。
実験では、安全性が重要な3つのベンチマーク問題(光暗位置推定、航空機衝突回避、CO2貯留)に対して、ConstrainedZeroの有効性が示されている。従来のPOMDP解法であるBetaZeroと比較して、ConstrainedZeroは目標とする安全レベルを満たしつつ、より高い報酬を得ることができている。また、適応的な安全制約の導入が重要であることも示されている。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Robert J. Mo... at arxiv.org 05-02-2024
https://arxiv.org/pdf/2405.00644.pdfDeeper Inquiries