Core Concepts
大規模言語モデルの直感的な System-1 タスクと外部の Thinker モジュールによる複雑な System-2 タスクを組み合わせることで、大規模言語モデルの推論能力を大幅に向上させることができる。
Abstract
本論文は、大規模言語モデル(LLM)の推論能力を強化するための革新的なフレームワークを提案している。このフレームワークでは、LLMが直感的な System-1 タスクを担当し、外部の Thinker モジュールが複雑な System-2 タスクを処理する。
具体的には、ウェアウルフゲームを対象として取り組んでいる。ウェアウルフゲームは、自然言語処理、論理分析、戦略的思考など、System-1 と System-2 の両方の推論能力が必要とされる複雑なゲームである。
Listener モジュールは、LLMを用いて発話の要約と特徴抽出を行う。Thinker モジュールは、これらの特徴を利用して、ゲームの状況分析、行動決定、発話指示の生成を行う。Presenter モジュールは、Thinkerの指示に基づいて、論理的で説得力のある発話を生成する。
実験の結果、Thinkerモジュールの導入により、LLMベースのエージェントの推論能力が大幅に向上し、GPT4を上回る性能を発揮することが示された。また、最大18,800セッションの大規模なウェアウルフゲームデータセットを公開している。
Stats
18,800人のプレイヤーによる7,000時間分のウェアウルフゲームセッションを収集した。
6,000時間分の発話データを収集し、ASRを用いて文字起こしを行った。
1.4百万文字のウェアウルフゲーム関連の文書データを収集した。