本研究では、LSAT論理ゲームを用いて大規模言語モデルの推論能力を評価した。論理ゲームは複雑な論理推論を必要とする課題であり、大規模言語モデルの能力を評価するのに適している。
まず、LSAT論理ゲームのデータセットを構築し、ゲームの難易度やタイプなどのメタデータを収集した。次に、GPT-3.5、GPT-4、Claude 2、Mistral-7b、Llama2-7bなどの大規模言語モデルにChain-of-Thought prompting手法を適用し、全体的な正答率を評価した。
その結果、GPT-4が33%の正答率を達成し、最も高い成績を収めた。一方、他のモデルは20%前後の正答率にとどまった。さらに、問題の難易度やゲームのタイプ別に分析したところ、モデルによって得意不得意の傾向が異なることが分かった。
特に、GPT-4は「In-and-Out」タイプのゲームで優れた成績を収めた。一方、Sequence型のゲームではClaude 2が他のモデルを上回る結果となった。これは、モデルによって論理的な推論の得意不得意が異なることを示唆している。
最後に、「Self-Reflection」と呼ばれる新しい prompting手法を「In-and-Out」ゲームのサブセットに適用したところ、GPT-4の正答率が70%まで向上した。これは、大規模言語モデルが自身の論理的な誤りを修正する能力を持っていることを示唆している。
全体として、本研究は大規模言語モデルの論理推論能力を詳細に分析し、その長所と短所を明らかにした。LSAT論理ゲームは大規模言語モデルの評価に有用な課題であり、今後の研究に貢献できると考えられる。
לשפה אחרת
מתוכן המקור
arxiv.org
שאלות מעמיקות