本研究では、部分観測マルコフ決定過程(POMDP)のポリシーに対する説明可能性を高めるため、ユーザーが提供する仮想的経路を活用する手法を提案する。
具体的には以下の通り:
この手法は、検索救助(SAR)のPOMDPドメインで実証し、ユーザーが観察可能な目的と部分観測の目的が異なる場合や、リソース制約がある場合の2つのケーススタディを示した。
特徴期待値を用いることで、ポリシーの頻度と報酬の関係性を明示的に示すことができ、ユーザーにとって直感的な説明が可能となる。今後の課題としては、ユーザーの閉ループ推論を考慮した説明の生成や、ユーザー介入を最小限に抑えた自動的な説明生成などが挙げられる。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Benjamin Kra... at arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19760.pdfDeeper Inquiries