Marco-o1は、CoTファインチューニング、MCTS、反射メカニズム、革新的な推論戦略を活用し、複雑な現実世界の問題解決タスクに最適化された、オープンエンドな解決策のためのオープン推論モデルである。
大規模言語モデルは簡潔な回答を好む傾向があるが、詳細な推論過程を促すことで、複雑な問題解決能力を大幅に向上できる。
報酬に基づくツリー探索アルゴリズムを用いることで、大規模言語モデルの推論能力、特に数学的推論タスクにおいて、大幅に向上させることができる。
事前学習された大規模言語モデルは、自己報酬による最適化手法を用いることで、潜在的な推論能力を引き出し、向上させることができる。
事前学習時に単語レベルで詳細な推論プロセスを注入する「単語の思考」(TOW)は、大規模言語モデルの推論能力と事実想起能力を向上させる効果的な手法である。
本稿では、大規模言語モデル (LLM) が自己推論を通じて動的に推論モジュールを生成し、多様なタスクに対するパフォーマンスを向上させる新しいフレームワーク「Auto-Evolve」を提案する。
大規模言語モデル (LLM) の推論能力、特に複雑な複数ステップの意思決定を必要とするタスクにおける推論能力を向上させるために、構造認識計画と正確な世界モデルを組み合わせた新しいフレームワーク「SWAP」が提案されている。
TypedThinkerは、帰納的推論、類推的推論、仮説的推論などの多様な推論タイプを活用することで、大規模言語モデルの推論能力を大幅に向上させる。
大規模言語モデルの推論能力を向上させるため、クリティック主導の計画的アプローチと検索補強を組み合わせた新しいフレームワークを提案する。
大規模言語モデルの推論能力を引き出すため、コード形式の計画を生成・活用するスケーラブルなアプローチを提案する。