核心概念
ユーザーが提供する仮想的経路を活用して、部分観測マルコフ決定過程のポリシーに対する対比的な説明を生成する。
要約
本研究では、部分観測マルコフ決定過程(POMDP)のポリシーに対する説明可能性を高めるため、ユーザーが提供する仮想的経路を活用する手法を提案する。
具体的には以下の通り:
ユーザーが最適ポリシーの実行経路に疑問を持った場合、ユーザーに代替的な経路を提示してもらう。
この仮想的経路をオープンループポリシーとして扱い、最適ポリシーと比較する。
特徴期待値を用いて、最適ポリシーと仮想的経路の性能を比較し、対比的な説明を生成する。
この手法は、検索救助(SAR)のPOMDPドメインで実証し、ユーザーが観察可能な目的と部分観測の目的が異なる場合や、リソース制約がある場合の2つのケーススタディを示した。
特徴期待値を用いることで、ポリシーの頻度と報酬の関係性を明示的に示すことができ、ユーザーにとって直感的な説明が可能となる。今後の課題としては、ユーザーの閉ループ推論を考慮した説明の生成や、ユーザー介入を最小限に抑えた自動的な説明生成などが挙げられる。
統計
最適ポリシーの特徴期待値: [0.036, 0.731, 0.0]
ユーザー提案ポリシーの特徴期待値: [0.684, 0.296, 0.0]
最適ポリシーの期待報酬: 270.180
ユーザー提案ポリシーの期待報酬: 334.154