大規模言語モデルは自然言語の論理的推論を行うことができるか、この問題に取り組むため、25種類の推論パターンを網羅するLogicBenchデータセットを提案し、GPT-4、ChatGPT、Gemini、Llama-2、Mistralなどの言語モデルの性能を評価した。実験結果は、これらの言語モデルが複雑な推論や否定を含む推論に苦戦していることを示している。