Core Concepts
大規模言語モデルを用いて、部分的に観測可能なマルコフ決定過程(POMDP)を活用することで、多段階の問題解決を効率的に行うことができる。
Abstract
本研究では、大規模言語モデルを用いた多段階の問題解決手法「Plan of Thoughts (PoT)」を提案している。PoTは、Tree of Thoughts (ToT)アプローチを拡張したものであり、以下の2つの主要な貢献がある:
言語モデルの自己反省的な推論能力を活用し、部分的に観測可能なマルコフ決定過程(POMDP)としてPoTを定式化した。言語モデルが部分的な解の価値を評価する能力を「観測」として利用し、効率的な探索を行う。
オンラインのPOMCP(Partially Observable Monte-Carlo Planning)ソルバーを用いて、PoTを実装した。これにより、「24の数字ゲーム」タスクにおいて、既存手法よりも高い成功率(89.4%)を達成しつつ、より良いアニータイム特性も示した。
具体的には、問題を部分的な部分問題に分解し、言語モデルに「思考」を生成させる。その上で、言語モデルによる部分解の価値評価を観測として活用し、POMCPソルバーを用いて効率的に解を探索する。この手法により、既存手法よりも高い成功率と良好なアニータイム特性を実現した。
Stats
「24の数字ゲーム」タスクにおいて、PoTは89.4%の成功率を達成した。
PoTは、全体の83.7%のケースを10分以内に解決できた。