核心概念
大規模言語モデルの段階的推論能力を自動的に評価する手法を提案し、様々な推論アルゴリズムの設計要素を分析する。
要約
本論文は、大規模言語モデル(LLM)の段階的推論能力を分析するための新しい取り組みを紹介している。
- AutoRace: 完全自動の推論過程評価手法
- 既存の評価手法は人手による注釈や固定のプロンプトに依存するが、AutoRaceは各タスクに合わせて自動的に評価基準を作成し、GPT-4を用いて正確に評価する。
- AutoRaceは答え合わせだけでなく、推論過程の正確性も評価でき、従来の手法では検出できない誤った推論を70.4%検出できる。
- LLM Reasoners: 統一的な推論アルゴリズムの定式化とライブラリ
- 推論報酬関数、世界モデル、探索アルゴリズムの3つの要素で推論アルゴリズムを統一的に定式化する。
- 既存の推論アルゴリズム(CoT、ToT、RAP等)をこの枠組みで実装したライブラリを開発した。
- 推論アルゴリズムの分析
- 報酬に基づく探索手法がfalse positiveを減らすことを発見した。
- 探索の幅が深さよりも重要であることがわかった。
- 世界モデルを明示的に組み込むことが、特に身体的な環境での推論に有効であることを示した。
- プロンプトの設計が誤った推論を生む可能性があることを指摘した。
また、様々な大規模言語モデルのCoT推論能力を比較し、GPT-4とClaude-3が最も優れていることを明らかにした。
統計
手動評価した100件のLlama-2-70Bの推論過程のうち、39%が正解だが推論過程に誤りがあった。
AutoRaceは従来の答え合わせ評価では検出できない70.4%の誤った推論過程を検出できた。