本研究では、LogicAskerというツールを開発し、大規模言語モデルの論理的推論能力を包括的に評価および強化することを目的とする。
主な内容は以下の通り:
命題論理と述語論理の基本原則に基づいて、34の原子的スキルと208の拡張スキルを定義し、LLMの論理的推論能力を体系的に評価できるようにした。
論理式を自動生成し、自然言語に翻訳するアルゴリズムを開発し、LLMに対する論理問題のテストケースを大量に生成した。
6つの最新のLLMに対してLogicAskerを適用し、論理的推論能力の弱点を明らかにした。その結果、LLMの論理的推論能力は29%から90%の誤りを含むことが分かった。
LogicAskerで特定された弱点を活用し、LLMの論理的推論能力を最大5%改善するためのインコンテキスト学習(ICL)デモンストレーションと fine-tuning データを生成した。
LogicAskerで生成したテストケースの品質を人手評価で確認し、信頼性の高いものであることを示した。
本研究は、LLMの論理的推論能力を体系的に評価し、その能力を向上させるための新しい手法を提案したものである。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問