Core Concepts
公開情報に基づく計画手法の欠点に着目し、更新等価フレームワークを提唱する。
Abstract
決定時計画(DTP)は政策を修正または構築するプロセスであり、戦略的意思決定において重要。
現在の主流なDTPパラダイムはサブゲームの解決に基づいており、完全情報ゲームでは効果的。
しかし、非公開情報が多い状況ではPBSベースのDTPが不十分であることが明らかになってきた。
更新等価フレームワークは最後の反復アルゴリズムの更新を実装することでDTPアルゴリズムを生成し、PBSベースのアプローチと比較して優れた性能を示す可能性がある。
MDSやMMDSなど、新しい原則的なDTPアルゴリズムが提案されており、Hanabiや2p0sゲームで競争力のある結果を達成している。
Stats
52枚から成るテキサス・ホールデムなど少量の非公開情報ではPBSベースのDTPは問題なく機能するが、非公開情報が増えると問題が発生する。
この仕事では、PBSベースの概念化の不十分さから着想を得て、「更新等価フレームワーク」について調査しました。この新しいパラダイムは非公開情報が多い状況でも効果的なDTPアルゴリズムを生成する可能性があります。
Quotes
"これまでPBS方法で支配されてきた設定で非PBS方法が競争力ある結果を達成した初めての例です。"