本研究では、大規模言語モデルの推論能力と知識検索の精度を向上させるため、クリティック主導の計画的アプローチと検索補強を組み合わせた新しいフレームワーク「CR-Planner」を提案している。
CR-Plannerの主な特徴は以下の通り:
サブゴールの選択と実行の選択の2段階からなる。サブゴールの選択では、推論、クエリ生成、検索の3つのサブゴールから最適なものを、特別に訓練したクリティックモデルによって選択する。実行の選択では、選択したサブゴールを実行するための最適な出力を、別のクリティックモデルによって選択する。
推論プロセスと検索プロセスを効果的に統合し、相互に補完し合うようにする。推論の洞察を活用して検索の精度を高め、一方で検索された知識によって推論の正確性を向上させる。
モンテカルロ木探索(MCTS)を用いて、クリティックモデルの訓練データを効率的に収集する。MCTSにより、長期的な報酬を考慮した系統的な探索が可能となり、クリティックモデルの性能が向上する。
本研究では、競技プログラミング、数学推論、複雑なドメイン検索などの困難なタスクにおいて、CR-Plannerが既存手法を大きく上回る性能を示すことを実験的に確認している。これは、大規模言語モデルの推論能力と知識検索の精度を同時に向上させる新しいアプローチの有効性を示すものである。
翻译成其他语言
从原文生成
arxiv.org
更深入的查询