Core Concepts
人間の思考プロセスを模倣したサブゴール生成器と古典的な探索アルゴリズムを組み合わせることで、複雑な推論タスクを効率的に解決できる。
Abstract
本論文では、複雑な推論タスクを解決するための「サブゴール検索」(Subgoal Search)手法を提案している。この手法の中心となるのは、サブゴール生成器である。サブゴール生成器は、現在の状態から達成可能で解に近いサブゴールを多様に生成する。これにより、探索空間が縮小され、効率的な計画が可能になる。
具体的には、以下の4つのコンポーネントから成る:
プランナー: サブゴール生成器によって生成されたグラフ上を探索し、価値関数に基づいて最適な経路を見つける。
サブゴール生成器: 現在の状態から k ステップ先のサブゴールを生成する。
低レベルポリシー: サブゴールに到達するための具体的な行動系列を生成する。
価値関数: 状態の価値を評価し、プランナーの探索を効率化する。
提案手法には2つの実装、MCTS-kSubSとBF-kSubSがある。前者はモンテカルロ木探索、後者は最良優先探索を用いている。
提案手法は、ソコバン、ルービックキューブ、不等式定理証明の3つの複雑な推論タスクで高い性能を示した。特に、不等式定理証明では従来手法を大きく上回る結果を得た。また、学習したサブゴール生成器が外挿性を持つことも確認された。
Stats
ソコバンの12x12の盤面で、提案手法のBF-kSubSは小さな計算予算でも高い成功率を達成している。
ルービックキューブでは、ベースラインのBestFSが10%未満の成功率しか得られないのに対し、BF-kSubSは近完璧な性能を示している。
不等式定理証明の証明長が15の問題に対し、BF-kSubSは400ノード探索で91%の成功率を達成している。