Core Concepts
プランニング主体は、観察者の部分的な観察に基づいて秘密情報を推測されるのを最大限に不透明にしつつ、総合的な報酬を満足させるような最適な政策を見つける。
Abstract
本論文は、マルコフ決定過程を用いて、プランニング主体と観察者の相互作用を扱う。プランニング主体の目的は、観察者が秘密情報を推測するのを最大限に不透明にすることである一方で、総合的な報酬を一定水準以上に保つことである。
具体的には、最終状態の不透明性と初期状態の不透明性の2つの問題を考える。前者は、最終状態が秘密状態集合に属するかどうかを観察者が確信できないようにすることを目的とし、後者は、初期状態の正確な実現を観察者に隠すことを目的とする。
不透明性の尺度としてシャノンの条件付き エントロピーを用いる。プランニング主体の最適政策を見つけるために、プライマル・デュアル勾配法を提案し、隠れマルコフモデルにおける前方・後方アルゴリズムを活用して、条件付きエントロピーの勾配を効率的に計算する。
最終的に、格子世界の例題を通じて、提案手法の有効性を示す。
Stats
最終状態が秘密状態集合に属する確率: Pθ(ZT = 1|y)
初期状態の条件付き確率: Pθ(s0|y)
Quotes
"プランニング主体の目的は、観察者が秘密情報を推測するのを最大限に不透明にすることである一方で、総合的な報酬を一定水準以上に保つことである。"
"不透明性の尺度としてシャノンの条件付きエントロピーを用いる。"