Core Concepts
大規模言語モデルは自然言語の論理的推論を行うことができるか、この問題に取り組むため、25種類の推論パターンを網羅するLogicBenchデータセットを提案し、GPT-4、ChatGPT、Gemini、Llama-2、Mistralなどの言語モデルの性能を評価した。実験結果は、これらの言語モデルが複雑な推論や否定を含む推論に苦戦していることを示している。
Abstract
本研究は、大規模言語モデル(LLM)の論理推論能力を体系的に評価することを目的としている。
まず、提案するLogicBenchデータセットは、命題論理、一階述語論理、非単調推論の25種類の推論パターンを網羅している。これにより、LLMの論理推論能力を包括的に評価することができる。
データセットの作成では、まず多様な概念を含む自然言語文を生成し、次にそれらを用いて論理的な文脈と質問を作成する。最後に、2つのタスク(二値質問応答、多肢選択)のデータを生成する。
実験では、GPT-4、ChatGPT、Gemini、Llama-2、Mistralなどの代表的なLLMを評価した。結果、これらのモデルは複雑な推論や否定を含む推論に苦戦しており、文脈情報を十分に活用できないことが明らかになった。
このように、LogicBenchを用いた評価により、LLMの論理推論能力の課題が明らかになった。今後、本研究の知見を活かし、LLMの論理推論能力の向上につなげていくことが期待される。
Stats
大規模言語モデルは、複雑な推論や否定を含む推論に苦戦する。
大規模言語モデルは、文脈情報を十分に活用できない。
Quotes
"LLMsは複雑な論理的文脈を扱うのが苦手で、否定を含む推論にも困難を示す。"
"実験結果は、これらのモデルが多くの推論ルールと様式に関して大きな課題を抱えていることを示唆している。"