核心概念
大規模言語モデルの複雑な論理推論能力を、広く利用可能なアルゴリズム問題とそのコードソリューションを活用して強化する新しいアプローチ「LogicPro」を提案する。
要約
本論文では、大規模言語モデル(LLM)の複雑な論理推論能力を向上させるための新しいアプローチ「LogicPro」を提案している。
まず、LeetCodeのアルゴリズム問題とそのPythonコードソリューションを利用して、テストサンプル入力を構築する。次に、これらのテストサンプルと問題文に基づいて、複雑な論理推論問題を生成する。さらに、コードソリューションの中間変数の出力を活用して、推論プロセスと最終答えを導出する。
このアプローチにより、十分に難しく(全モデルが非効果的)、多様(2,360種類のアルゴリズム問題から合成)、かつスケーラブル(より多くのアルゴリズム問題を収集可能)なデータセットを構築できる。また、中間変数の値によって導かれる高品質な推論プロセスも得られる。
実験の結果、LogicProを使用することで、BBH27、GSM8K、HellSwag、Logicqa、Reclor、RTEデータセットにおいて、多くのモデルの性能が大幅に向上することが示された。これは、既存の推論データセットを大きく上回る成果である。
統計
17段の階段を登るには2584通りの異なる方法がある。
階段の第n段に到達する方法の数は、第n-1段と第n-2段に到達する方法の数の和である。
引用
「プログラム指導型学習は、大規模言語モデルの複雑な論理推論能力を大幅に向上させることができる」
「LogicProは、十分に難しく、多様で、スケーラブルなデータセットを提供し、高品質な推論プロセスも生成できる」