Core Concepts
限られた資源の中で、パトロール担当者は密猟や違法伐採などの違法行為の検知と、より良い予測モデルを構築するためのデータ収集の両立を図る必要がある。
Abstract
本論文では、グリーンセキュリティ分野における二重任務パトロールの問題を扱う。パトロール担当者は、保護地域全体を監視する必要があるが、限られた人員しか配置できない。そのため、パトロール担当者は、違法行為の検知と、より良い予測モデルを構築するためのデータ収集の間でトレードオフを考える必要がある。
この問題をマルチアームドバンディットとして定式化し、報酬関数の分解可能性とリプシッツ連続性を活用することで、短期的な性能と長期的な最適性のバランスを取る手法を提案する。具体的には以下の特徴を持つ:
報酬関数の分解可能性: 全体の報酬は各ターゲットの報酬の和で表される
リプシッツ連続性: 各ターゲットの報酬関数はターゲットの特徴量と投入努力量に関してリプシッツ連続
単調性: 投入努力量が増えれば報酬も増加する
過去のデータの活用: 過去のパトロールデータを活用して学習を高速化
提案手法であるLIZARDは、これらの特徴を活用することで、既存手法よりも優れた短期的な性能と長期的な最適性を両立できることを示す。
Stats
パトロールの結果、ターゲットiにおける努力量βiで検知された違法行為の数はベルヌーイ分布に従う。
その期待値は関数μi(βi)で表される。