限られた計算リソースでLLM推論を効率的にスケールアップするには、最適化されたサンプル計算割り当てが不可欠である。
大規模言語モデル(LLM)は目覚ましい推論能力を示している一方で、表面的な論理連鎖に依存することで、誤った推論や幻覚が生じる可能性がある。本稿では、LLMのロバストな推論能力を評価するために、概念逆転ウィノグラードスキーマチャレンジ(CR-WSC)と呼ばれる新しい評価データセットを提案する。CR-WSCは、従来のウィノグラードスキーマチャレンジ(WSC)データセットの概念を逆転させることで、LLMが表面的な論理連鎖ではなく、真にロバストな推論を行っているかどうかを検証する。さらに、抽象化思考(AoT)と呼ばれる新しいプロンプト手法を提案し、概念の抽象化を用いて敵対的なケースを通常のケースに回復させることで、CR-WSCにおけるLLMのロバスト性と推論の一貫性を向上させる。
大規模言語モデル (LLM) の段階的推論能力を向上させるために、多様な推論パスを考慮し、好ましい分岐を促進しながら、好ましくない分岐を抑制する新しいトレーニングフレームワーク「推論パス最適化 (RPO)」が提案されている。
OpenRは、プロセス監視、強化学習、テスト時の計算戦略を統合することで、大規模言語モデル(LLM)の推論能力を向上させることを目的としたオープンソースフレームワークである。
大規模言語モデル (LLM) の推論能力、特に数学やコードの推論といった複雑なタスクにおける一貫性と正確さを向上させるために、複数の推論パスを生成し、検証器を用いて出力の正誤を評価・ランク付けする、スケールアップされた推論時計算手法を提案する。
本稿では、最小限のデータでLLMの推論の質と多様性を向上させる、効率的な多様性追求型LLMファインチューニング手法であるFlow of Reasoning (FOR)を提案する。